Éclair - Extrahieren von Inhalten und Layout mit integrierter Lesereihenfolge für Dokumente

papers.abstract

Die optische Zeichenerkennung (Optical Character Recognition, OCR) wird weit verbreitet eingesetzt, um Text aus Bildern von Dokumenten zu extrahieren, was eine effiziente Digitalisierung und Datenabruf ermöglicht. Jedoch ist es nicht ausreichend, nur den Text zu extrahieren, wenn es um komplexe Dokumente geht. Ein umfassendes Verständnis solcher Dokumente erfordert die Kenntnis ihrer Struktur - einschließlich Formatierung, Formeln, Tabellen und der Lesereihenfolge von mehreren Blöcken und Spalten über mehrere Seiten hinweg - sowie semantische Informationen zur Erkennung von Elementen wie Fußnoten und Bildunterschriften. Dieses umfassende Verständnis ist entscheidend für nachgelagerte Aufgaben wie den Abruf, die Beantwortung von Dokumentenfragen und die Datenkuratierung zur Schulung großer Sprachmodelle (Large Language Models, LLMs) und Bildsprachmodelle (Vision Language Models, VLMs). Um dies zu bewältigen, stellen wir \'Eclair vor, ein universelles Textextraktionstool, das speziell zur Verarbeitung einer Vielzahl von Dokumententypen entwickelt wurde. Anhand eines Bildes kann \'Eclair formatierten Text in Lesereihenfolge extrahieren, zusammen mit Begrenzungsrahmen und den entsprechenden semantischen Klassen. Zur gründlichen Bewertung dieser neuartigen Fähigkeiten stellen wir unseren vielfältigen, von Menschen annotierten Benchmark für die OCR auf Dokumentenebene und semantische Klassifizierung vor. \'Eclair erzielt eine Spitzenpräzision auf diesem Benchmark und übertrifft andere Methoden in wichtigen Metriken. Darüber hinaus bewerten wir \'Eclair anhand etablierter Benchmarks und zeigen seine Vielseitigkeit und Stärke gemäß mehrerer Bewertungsstandards.

English

Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure -- including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages -- as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \'Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \'Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \'Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \'Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.

Éclair - Extrahieren von Inhalten und Layout mit integrierter Lesereihenfolge für Dokumente

Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

papers.abstract

Support