Эклер -- Извлечение содержимого и макета с интегрированным порядком чтения для документов
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents
February 6, 2025
Авторы: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra
cs.AI
Аннотация
Технология оптического распознавания символов (OCR) широко используется для извлечения текста из изображений документов, обеспечивая эффективную цифровизацию и извлечение данных. Однако простое извлечение текста недостаточно при работе с сложными документами. Полное понимание таких документов требует понимания их структуры, включая форматирование, формулы, таблицы, порядок чтения нескольких блоков и столбцов на нескольких страницах, а также семантической информации для обнаружения элементов, таких как сноски и подписи к изображениям. Это всестороннее понимание критично для последующих задач, таких как извлечение, ответы на вопросы по документам и курирование данных для обучения больших языковых моделей (LLM) и моделей языка и зрения (VLM). Для решения этой проблемы мы представляем \'Eclair, универсальный инструмент для извлечения текста, специально разработанный для обработки широкого спектра типов документов. Получив изображение, \'Eclair способен извлекать отформатированный текст в порядке чтения, а также ограничивающие рамки и соответствующие семантические классы. Для тщательной оценки этих новых возможностей мы представляем наш разнообразный человеко-аннотированный бенчмарк для OCR на уровне документа и семантической классификации. \'Eclair достигает передовой точности на этом бенчмарке, превосходя другие методы по ключевым метрикам. Кроме того, мы оцениваем \'Eclair на установленных бенчмарках, демонстрируя его универсальность и силу по различным стандартам оценки.
English
Optical Character Recognition (OCR) technology is widely used to extract text
from images of documents, facilitating efficient digitization and data
retrieval. However, merely extracting text is insufficient when dealing with
complex documents. Fully comprehending such documents requires an understanding
of their structure -- including formatting, formulas, tables, and the reading
order of multiple blocks and columns across multiple pages -- as well as
semantic information for detecting elements like footnotes and image captions.
This comprehensive understanding is crucial for downstream tasks such as
retrieval, document question answering, and data curation for training Large
Language Models (LLMs) and Vision Language Models (VLMs). To address this, we
introduce \'Eclair, a general-purpose text-extraction tool specifically
designed to process a wide range of document types. Given an image, \'Eclair is
able to extract formatted text in reading order, along with bounding boxes and
their corresponding semantic classes. To thoroughly evaluate these novel
capabilities, we introduce our diverse human-annotated benchmark for
document-level OCR and semantic classification. \'Eclair achieves
state-of-the-art accuracy on this benchmark, outperforming other methods across
key metrics. Additionally, we evaluate \'Eclair on established benchmarks,
demonstrating its versatility and strength across several evaluation standards.Summary
AI-Generated Summary