Informe Técnico sobre Análisis Lógico

Resumen

Los recientes avances en los modelos de visión y lenguaje a gran escala (LVLM, por sus siglas en inglés) han impulsado un progreso significativo en la tarea de análisis de documentos. En comparación con los métodos tradicionales basados en pipelines, los paradigmas de extremo a extremo han demostrado su excelencia en la conversión de imágenes PDF en salidas estructuradas mediante la integración de reconocimiento óptico de caracteres (OCR), reconocimiento de tablas, reconocimiento de fórmulas matemáticas, entre otros. Sin embargo, la ausencia de etapas analíticas explícitas para los diseños de documentos y los órdenes de lectura limita la capacidad de los LVLM para manejar tipos de documentos complejos, como periódicos de varias columnas o carteles. Para abordar esta limitación, proponemos en este informe Logics-Parsing: un modelo basado en LVLM de extremo a extremo aumentado con aprendizaje por refuerzo. Nuestro modelo incorpora mecanismos de recompensa meticulosamente diseñados para optimizar el análisis de diseños complejos y la inferencia del orden de lectura. Además, ampliamos la versatilidad del modelo al incorporar diversos tipos de datos, como fórmulas químicas y caracteres chinos escritos a mano, en el ajuste fino supervisado. Finalmente, para permitir una evaluación rigurosa de nuestro enfoque, presentamos LogicsParsingBench, un conjunto curado de 1,078 imágenes PDF a nivel de página que abarcan nueve categorías principales y más de veinte subcategorías, que se publicará más adelante. Experimentos exhaustivos realizados en LogicsParsingBench han validado la eficacia y el rendimiento de vanguardia (SOTA) de nuestro modelo propuesto en diversos escenarios de análisis de documentos. Página del proyecto: https://github.com/alibaba/Logics-Parsing

English

Recent advances in Large Vision-Language models (LVLM) have spurred significant progress in document parsing task. Compared to traditional pipeline-based methods, end-to-end paradigms have shown their excellence in converting PDF images into structured outputs through integrated Optical Character Recognition (OCR), table recognition, mathematical formula recognition and so on. However, the absence of explicit analytical stages for document layouts and reading orders limits the LVLM's capability in handling complex document types such as multi-column newspapers or posters. To address this limitation, we propose in this report Logics-Parsing: an end-to-end LVLM-based model augmented with reinforcement learning. Our model incorporates meticulously designed reward mechanisms to optimize complex layout analysis and reading order inference. In addition, we expand the model's versatility by incorporating diverse data types such as chemical formulas and handwritten Chinese characters into supervised fine-tuning. Finally, to enable rigorous evaluation of our approach, we introduce LogicsParsingBench, a curated set of 1,078 page-level PDF images spanning nine major categories and over twenty sub-categories, which will be released later. Comprehensive experiments conducted on LogicsParsingBench have validated the efficacy and State-of-the-art (SOTA) performance of our proposed model across diverse document analysis scenarios. Project Page: https://github.com/alibaba/Logics-Parsing

Informe Técnico sobre Análisis Lógico

Logics-Parsing Technical Report

Resumen

Support