Éclair - Extraction de contenu et de mise en page avec ordre de lecture intégré pour les documents
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
February 6, 2025
Auteurs: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI
Résumé
La technologie de Reconnaissance Optique de Caractères (OCR) est largement utilisée pour extraire du texte à partir d'images de documents, facilitant la numérisation efficace et la récupération de données. Cependant, extraire simplement du texte est insuffisant lorsqu'il s'agit de documents complexes. Comprendre pleinement de tels documents nécessite une compréhension de leur structure - y compris la mise en forme, les formules, les tableaux, et l'ordre de lecture de plusieurs blocs et colonnes sur plusieurs pages - ainsi que des informations sémantiques pour détecter des éléments tels que les notes de bas de page et les légendes d'images. Cette compréhension approfondie est cruciale pour des tâches ultérieures telles que la récupération, la réponse à des questions sur des documents, et la curation de données pour l'entraînement de Grands Modèles de Langage (LLMs) et de Modèles de Langage Visuel (VLMs). Pour répondre à cela, nous présentons \'Eclair, un outil d'extraction de texte polyvalent spécifiquement conçu pour traiter une large gamme de types de documents. En donnant une image en entrée, \'Eclair est capable d'extraire du texte formaté dans l'ordre de lecture, avec les cadres englobants et leurs classes sémantiques correspondantes. Pour évaluer pleinement ces nouvelles capacités, nous présentons notre banc d'essai diversifié annoté par des humains pour l'OCR au niveau du document et la classification sémantique. \'Eclair atteint une précision de pointe sur ce banc d'essai, surpassant d'autres méthodes sur des métriques clés. De plus, nous évaluons \'Eclair sur des bancs d'essai établis, démontrant sa polyvalence et sa robustesse selon plusieurs normes d'évaluation.
English
Optical Character Recognition (OCR) technology is widely used to extract text
from images of documents, facilitating efficient digitization and data
retrieval. However, merely extracting text is insufficient when dealing with
complex documents. Fully comprehending such documents requires an understanding
of their structure -- including formatting, formulas, tables, and the reading
order of multiple blocks and columns across multiple pages -- as well as
semantic information for detecting elements like footnotes and image captions.
This comprehensive understanding is crucial for downstream tasks such as
retrieval, document question answering, and data curation for training Large
Language Models (LLMs) and Vision Language Models (VLMs). To address this, we
introduce \'Eclair, a general-purpose text-extraction tool specifically
designed to process a wide range of document types. Given an image, \'Eclair is
able to extract formatted text in reading order, along with bounding boxes and
their corresponding semantic classes. To thoroughly evaluate these novel
capabilities, we introduce our diverse human-annotated benchmark for
document-level OCR and semantic classification. \'Eclair achieves
state-of-the-art accuracy on this benchmark, outperforming other methods across
key metrics. Additionally, we evaluate \'Eclair on established benchmarks,
demonstrating its versatility and strength across several evaluation standards.Summary
AI-Generated Summary