Baidu lança PP-OCRv5, um modelo compacto de IA que supera grandes rivais em testes de OCR

MENU RÁPIDO

Últimos eventos

01/08/2026

SUN 7 PAGODE DA GICA

Começa as 15:00 e termina as
15/08/2026

SUNSET QUINTA DOS CAMARGOS

Começa as 14:00 e termina as

Publicidade AD

Achados Shopee

Por Soumyakanti |14 de Setembro de 2025 Fonte: Gizmochina

O Baidu acaba de lançar algo bem interessante no cenário da IA. Após o recente lançamento do modelo de pensamento profundo Ernie X1.1, eles lançaram o PP-OCRv5, um novo modelo de reconhecimento óptico de caracteres disponível no Hugging Face. O que o torna tão especial? Ele foi projetado para ser realmente bom na leitura de texto, mantendo-se surpreendentemente leve.

A questão é: aqueles modelos massivos de visão e linguagem de que tanto ouvimos falar? Eles são impressionantes, mas podem apresentar dificuldades quando se trata do trabalho minucioso de ler textos estruturados com precisão. É aí que entra o PP-OCRv5. O Baidu o desenvolveu especificamente para lidar com essas limitações.

O interessante é que o modelo funciona em duas etapas principais: primeiro, ele encontra onde o texto está localizado em uma imagem e, em seguida, lê o que esse texto diz. Essa abordagem ajuda a identificar exatamente onde o texto aparece e a desenhar caixas precisas ao redor dele, o que é muito útil se você estiver tentando extrair dados de documentos ou analisar formulários.

A eficiência também é impressionante. Estamos falando de apenas 0,07 bilhão de parâmetros – um número minúsculo comparado aos gigantes do setor. O Baidu testou o sistema em dispositivos móveis e descobriu que ele era capaz de processar mais de 370 caracteres por segundo em um processador Intel Xeon. Isso significa que você poderia executá-lo em computadores comuns ou até mesmo em dispositivos de ponta sem precisar de enormes conjuntos de servidores.

Quando o Baidu comparou o PP-OCRv5 com grandes nomes como GPT-4o, Gemini 2.5 Pro e Qwen2.5-VL em tarefas de OCR, seu modelo saiu na frente. Ele lida muito bem com texto impresso e manuscrito, e não se limita apenas ao inglês – funciona com chinês simplificado, chinês tradicional, japonês, pinyin e, na verdade, suporta mais de 40 idiomas no total.

A configuração técnica é simples, mas inteligente. Começa limpando a imagem – corrigindo problemas de rotação, reduzindo a distorção, coisas do tipo. Em seguida, encontra a localização das linhas de texto, descobre sua orientação e, por fim, converte esses caracteres em texto legível. Todo o processo foi projetado para fornecer coordenadas precisas de onde cada pedaço de texto se encaixa, o que é crucial se você estiver digitalizando faturas ou processando formulários onde o layout é importante.

O interessante é que o Baidu disponibilizou isso para todos através do Hugging Face. Para desenvolvedores e empresas que lidam com muitos documentos multilíngues ou que simplesmente precisam de recursos de OCR sólidos sem a sobrecarga de modelos enormes, o PP-OCRv5 parece ser uma opção prática que realmente resolve o problema.