Éclair - Extrahieren von Inhalten und Layout mit integrierter Lesereihenfolge für Dokumente
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
February 6, 2025
Autoren: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI
Zusammenfassung
Die optische Zeichenerkennung (Optical Character Recognition, OCR) wird weit verbreitet eingesetzt, um Text aus Bildern von Dokumenten zu extrahieren, was eine effiziente Digitalisierung und Datenabruf ermöglicht. Jedoch ist es nicht ausreichend, nur den Text zu extrahieren, wenn es um komplexe Dokumente geht. Ein umfassendes Verständnis solcher Dokumente erfordert die Kenntnis ihrer Struktur - einschließlich Formatierung, Formeln, Tabellen und der Lesereihenfolge von mehreren Blöcken und Spalten über mehrere Seiten hinweg - sowie semantische Informationen zur Erkennung von Elementen wie Fußnoten und Bildunterschriften. Dieses umfassende Verständnis ist entscheidend für nachgelagerte Aufgaben wie den Abruf, die Beantwortung von Dokumentenfragen und die Datenkuratierung zur Schulung großer Sprachmodelle (Large Language Models, LLMs) und Bildsprachmodelle (Vision Language Models, VLMs). Um dies zu bewältigen, stellen wir \'Eclair vor, ein universelles Textextraktionstool, das speziell zur Verarbeitung einer Vielzahl von Dokumententypen entwickelt wurde. Anhand eines Bildes kann \'Eclair formatierten Text in Lesereihenfolge extrahieren, zusammen mit Begrenzungsrahmen und den entsprechenden semantischen Klassen. Zur gründlichen Bewertung dieser neuartigen Fähigkeiten stellen wir unseren vielfältigen, von Menschen annotierten Benchmark für die OCR auf Dokumentenebene und semantische Klassifizierung vor. \'Eclair erzielt eine Spitzenpräzision auf diesem Benchmark und übertrifft andere Methoden in wichtigen Metriken. Darüber hinaus bewerten wir \'Eclair anhand etablierter Benchmarks und zeigen seine Vielseitigkeit und Stärke gemäß mehrerer Bewertungsstandards.
English
Optical Character Recognition (OCR) technology is widely used to extract text
from images of documents, facilitating efficient digitization and data
retrieval. However, merely extracting text is insufficient when dealing with
complex documents. Fully comprehending such documents requires an understanding
of their structure -- including formatting, formulas, tables, and the reading
order of multiple blocks and columns across multiple pages -- as well as
semantic information for detecting elements like footnotes and image captions.
This comprehensive understanding is crucial for downstream tasks such as
retrieval, document question answering, and data curation for training Large
Language Models (LLMs) and Vision Language Models (VLMs). To address this, we
introduce \'Eclair, a general-purpose text-extraction tool specifically
designed to process a wide range of document types. Given an image, \'Eclair is
able to extract formatted text in reading order, along with bounding boxes and
their corresponding semantic classes. To thoroughly evaluate these novel
capabilities, we introduce our diverse human-annotated benchmark for
document-level OCR and semantic classification. \'Eclair achieves
state-of-the-art accuracy on this benchmark, outperforming other methods across
key metrics. Additionally, we evaluate \'Eclair on established benchmarks,
demonstrating its versatility and strength across several evaluation standards.Summary
AI-Generated Summary