ChatPaper.aiChatPaper

Éclair - Het extraheren van inhoud en lay-out met geïntegreerde leesvolgorde voor documenten.

Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

February 6, 2025
Auteurs: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI

Samenvatting

Optical Character Recognition (OCR) technologie wordt veelvuldig gebruikt om tekst uit afbeeldingen van documenten te extraheren, waardoor efficiënte digitalisering en gegevensopvraging mogelijk worden gemaakt. Echter, enkel het extraheren van tekst is onvoldoende bij het omgaan met complexe documenten. Een volledig begrip van dergelijke documenten vereist een begrip van hun structuur -- inclusief opmaak, formules, tabellen, en de leesvolgorde van meerdere blokken en kolommen over meerdere pagina's -- evenals semantische informatie voor het detecteren van elementen zoals voetnoten en afbeeldingsbijschriften. Dit uitgebreide begrip is cruciaal voor taken nadien zoals opvraging, het beantwoorden van documentvragen en gegevenscuratie voor het trainen van Grote Taalmodellen (LLMs) en Visie Taalmodellen (VLMs). Om hiermee om te gaan, introduceren we 'Éclair, een algemeen tekstextractietool specifiek ontworpen om een breed scala aan documenttypes te verwerken. Gegeven een afbeelding, is 'Éclair in staat opgemaakte tekst in leesvolgorde te extraheren, samen met afbakeningskaders en hun overeenkomstige semantische klassen. Om deze nieuwe mogelijkheden grondig te evalueren, introduceren we ons diverse menselijk-geannoteerde benchmark voor OCR op documentniveau en semantische classificatie. 'Éclair behaalt state-of-the-art nauwkeurigheid op deze benchmark, waarbij het andere methoden overtreft op belangrijke metrieken. Daarnaast evalueren we 'Éclair op gevestigde benchmarks, waarbij we de veelzijdigheid en kracht ervan aantonen over verschillende evaluatienormen.
English
Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure -- including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages -- as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \'Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \'Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \'Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \'Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.
PDF113February 12, 2025