Éclair: Extracción de Contenido y Diseño con Orden de Lectura Integrado para Documentos
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
February 6, 2025
Autores: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI
Resumen
La tecnología de Reconocimiento Óptico de Caracteres (OCR) se utiliza ampliamente para extraer texto de imágenes de documentos, facilitando la digitalización eficiente y la recuperación de datos. Sin embargo, simplemente extraer texto es insuficiente al tratar con documentos complejos. Comprender completamente dichos documentos requiere entender su estructura, incluyendo formato, fórmulas, tablas y el orden de lectura de múltiples bloques y columnas a lo largo de varias páginas, así como información semántica para detectar elementos como notas al pie y leyendas de imágenes. Esta comprensión integral es crucial para tareas posteriores como recuperación, respuesta a preguntas sobre documentos y curación de datos para entrenar Modelos de Lenguaje Grandes (LLMs) y Modelos de Lenguaje Visual (VLMs). Para abordar esto, presentamos 'Éclair, una herramienta de extracción de texto de propósito general diseñada específicamente para procesar una amplia gama de tipos de documentos. Dada una imagen, 'Éclair es capaz de extraer texto formateado en orden de lectura, junto con cuadros delimitadores y sus clases semánticas correspondientes. Para evaluar a fondo estas capacidades novedosas, presentamos nuestro variado banco de pruebas anotado por humanos para OCR a nivel de documento y clasificación semántica. 'Éclair logra una precisión de vanguardia en este banco de pruebas, superando a otros métodos en métricas clave. Además, evaluamos 'Éclair en bancos de pruebas establecidos, demostrando su versatilidad y fortaleza en varios estándares de evaluación.
English
Optical Character Recognition (OCR) technology is widely used to extract text
from images of documents, facilitating efficient digitization and data
retrieval. However, merely extracting text is insufficient when dealing with
complex documents. Fully comprehending such documents requires an understanding
of their structure -- including formatting, formulas, tables, and the reading
order of multiple blocks and columns across multiple pages -- as well as
semantic information for detecting elements like footnotes and image captions.
This comprehensive understanding is crucial for downstream tasks such as
retrieval, document question answering, and data curation for training Large
Language Models (LLMs) and Vision Language Models (VLMs). To address this, we
introduce \'Eclair, a general-purpose text-extraction tool specifically
designed to process a wide range of document types. Given an image, \'Eclair is
able to extract formatted text in reading order, along with bounding boxes and
their corresponding semantic classes. To thoroughly evaluate these novel
capabilities, we introduce our diverse human-annotated benchmark for
document-level OCR and semantic classification. \'Eclair achieves
state-of-the-art accuracy on this benchmark, outperforming other methods across
key metrics. Additionally, we evaluate \'Eclair on established benchmarks,
demonstrating its versatility and strength across several evaluation standards.Summary
AI-Generated Summary