ChatPaper.aiChatPaper

Éclair: Extracción de Contenido y Diseño con Orden de Lectura Integrado para Documentos

Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

February 6, 2025
Autores: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI

Resumen

La tecnología de Reconocimiento Óptico de Caracteres (OCR) se utiliza ampliamente para extraer texto de imágenes de documentos, facilitando la digitalización eficiente y la recuperación de datos. Sin embargo, simplemente extraer texto es insuficiente al tratar con documentos complejos. Comprender completamente dichos documentos requiere entender su estructura, incluyendo formato, fórmulas, tablas y el orden de lectura de múltiples bloques y columnas a lo largo de varias páginas, así como información semántica para detectar elementos como notas al pie y leyendas de imágenes. Esta comprensión integral es crucial para tareas posteriores como recuperación, respuesta a preguntas sobre documentos y curación de datos para entrenar Modelos de Lenguaje Grandes (LLMs) y Modelos de Lenguaje Visual (VLMs). Para abordar esto, presentamos 'Éclair, una herramienta de extracción de texto de propósito general diseñada específicamente para procesar una amplia gama de tipos de documentos. Dada una imagen, 'Éclair es capaz de extraer texto formateado en orden de lectura, junto con cuadros delimitadores y sus clases semánticas correspondientes. Para evaluar a fondo estas capacidades novedosas, presentamos nuestro variado banco de pruebas anotado por humanos para OCR a nivel de documento y clasificación semántica. 'Éclair logra una precisión de vanguardia en este banco de pruebas, superando a otros métodos en métricas clave. Además, evaluamos 'Éclair en bancos de pruebas establecidos, demostrando su versatilidad y fortaleza en varios estándares de evaluación.
English
Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure -- including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages -- as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \'Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \'Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \'Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \'Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.

Summary

AI-Generated Summary

PDF113February 12, 2025