Éclair - Extraction de contenu et de mise en page avec ordre de lecture intégré pour les documents

papers.abstract

La technologie de Reconnaissance Optique de Caractères (OCR) est largement utilisée pour extraire du texte à partir d'images de documents, facilitant la numérisation efficace et la récupération de données. Cependant, extraire simplement du texte est insuffisant lorsqu'il s'agit de documents complexes. Comprendre pleinement de tels documents nécessite une compréhension de leur structure - y compris la mise en forme, les formules, les tableaux, et l'ordre de lecture de plusieurs blocs et colonnes sur plusieurs pages - ainsi que des informations sémantiques pour détecter des éléments tels que les notes de bas de page et les légendes d'images. Cette compréhension approfondie est cruciale pour des tâches ultérieures telles que la récupération, la réponse à des questions sur des documents, et la curation de données pour l'entraînement de Grands Modèles de Langage (LLMs) et de Modèles de Langage Visuel (VLMs). Pour répondre à cela, nous présentons \'Eclair, un outil d'extraction de texte polyvalent spécifiquement conçu pour traiter une large gamme de types de documents. En donnant une image en entrée, \'Eclair est capable d'extraire du texte formaté dans l'ordre de lecture, avec les cadres englobants et leurs classes sémantiques correspondantes. Pour évaluer pleinement ces nouvelles capacités, nous présentons notre banc d'essai diversifié annoté par des humains pour l'OCR au niveau du document et la classification sémantique. \'Eclair atteint une précision de pointe sur ce banc d'essai, surpassant d'autres méthodes sur des métriques clés. De plus, nous évaluons \'Eclair sur des bancs d'essai établis, démontrant sa polyvalence et sa robustesse selon plusieurs normes d'évaluation.

English

Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure -- including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages -- as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \'Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \'Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \'Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \'Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.

Éclair - Extraction de contenu et de mise en page avec ordre de lecture intégré pour les documents

Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

papers.abstract

Support