Éclair -- Extraindo Conteúdo e Layout com Ordem de Leitura Integrada para Documentos

Resumo

A tecnologia de Reconhecimento Óptico de Caracteres (OCR) é amplamente utilizada para extrair texto de imagens de documentos, facilitando a digitalização eficiente e a recuperação de dados. No entanto, simplesmente extrair texto é insuficiente ao lidar com documentos complexos. Compreender plenamente tais documentos requer uma compreensão de sua estrutura -- incluindo formatação, fórmulas, tabelas e a ordem de leitura de múltiplos blocos e colunas em várias páginas --, bem como informações semânticas para detectar elementos como notas de rodapé e legendas de imagens. Essa compreensão abrangente é crucial para tarefas subsequentes, como recuperação, resposta a perguntas de documentos e curadoria de dados para treinar Modelos de Linguagem Grandes (LLMs) e Modelos de Linguagem Visual (VLMs). Para abordar isso, apresentamos o \'Eclair, uma ferramenta de extração de texto de uso geral projetada especificamente para processar uma ampla gama de tipos de documentos. Dada uma imagem, o \'Eclair é capaz de extrair texto formatado na ordem de leitura, juntamente com caixas delimitadoras e suas classes semânticas correspondentes. Para avaliar minuciosamente essas novas capacidades, apresentamos nosso diversificado benchmark anotado por humanos para OCR em nível de documento e classificação semântica. O \'Eclair alcança precisão de ponta neste benchmark, superando outros métodos em métricas-chave. Além disso, avaliamos o \'Eclair em benchmarks estabelecidos, demonstrando sua versatilidade e robustez em vários padrões de avaliação.

English

Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure -- including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages -- as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \'Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \'Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \'Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \'Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.

Éclair -- Extraindo Conteúdo e Layout com Ordem de Leitura Integrada para Documentos

Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

Resumo

Support