Éclair -- Extraindo Conteúdo e Layout com Ordem de Leitura Integrada para Documentos
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
February 6, 2025
Autores: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI
Resumo
A tecnologia de Reconhecimento Óptico de Caracteres (OCR) é amplamente utilizada para extrair texto de imagens de documentos, facilitando a digitalização eficiente e a recuperação de dados. No entanto, simplesmente extrair texto é insuficiente ao lidar com documentos complexos. Compreender plenamente tais documentos requer uma compreensão de sua estrutura -- incluindo formatação, fórmulas, tabelas e a ordem de leitura de múltiplos blocos e colunas em várias páginas --, bem como informações semânticas para detectar elementos como notas de rodapé e legendas de imagens. Essa compreensão abrangente é crucial para tarefas subsequentes, como recuperação, resposta a perguntas de documentos e curadoria de dados para treinar Modelos de Linguagem Grandes (LLMs) e Modelos de Linguagem Visual (VLMs). Para abordar isso, apresentamos o \'Eclair, uma ferramenta de extração de texto de uso geral projetada especificamente para processar uma ampla gama de tipos de documentos. Dada uma imagem, o \'Eclair é capaz de extrair texto formatado na ordem de leitura, juntamente com caixas delimitadoras e suas classes semânticas correspondentes. Para avaliar minuciosamente essas novas capacidades, apresentamos nosso diversificado benchmark anotado por humanos para OCR em nível de documento e classificação semântica. O \'Eclair alcança precisão de ponta neste benchmark, superando outros métodos em métricas-chave. Além disso, avaliamos o \'Eclair em benchmarks estabelecidos, demonstrando sua versatilidade e robustez em vários padrões de avaliação.
English
Optical Character Recognition (OCR) technology is widely used to extract text
from images of documents, facilitating efficient digitization and data
retrieval. However, merely extracting text is insufficient when dealing with
complex documents. Fully comprehending such documents requires an understanding
of their structure -- including formatting, formulas, tables, and the reading
order of multiple blocks and columns across multiple pages -- as well as
semantic information for detecting elements like footnotes and image captions.
This comprehensive understanding is crucial for downstream tasks such as
retrieval, document question answering, and data curation for training Large
Language Models (LLMs) and Vision Language Models (VLMs). To address this, we
introduce \'Eclair, a general-purpose text-extraction tool specifically
designed to process a wide range of document types. Given an image, \'Eclair is
able to extract formatted text in reading order, along with bounding boxes and
their corresponding semantic classes. To thoroughly evaluate these novel
capabilities, we introduce our diverse human-annotated benchmark for
document-level OCR and semantic classification. \'Eclair achieves
state-of-the-art accuracy on this benchmark, outperforming other methods across
key metrics. Additionally, we evaluate \'Eclair on established benchmarks,
demonstrating its versatility and strength across several evaluation standards.Summary
AI-Generated Summary