Informe Técnico sobre Análisis Lógico
Logics-Parsing Technical Report
September 24, 2025
Autores: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
Resumen
Los recientes avances en los modelos de visión y lenguaje a gran escala (LVLM, por sus siglas en inglés) han impulsado un progreso significativo en la tarea de análisis de documentos. En comparación con los métodos tradicionales basados en pipelines, los paradigmas de extremo a extremo han demostrado su excelencia en la conversión de imágenes PDF en salidas estructuradas mediante la integración de reconocimiento óptico de caracteres (OCR), reconocimiento de tablas, reconocimiento de fórmulas matemáticas, entre otros. Sin embargo, la ausencia de etapas analíticas explícitas para los diseños de documentos y los órdenes de lectura limita la capacidad de los LVLM para manejar tipos de documentos complejos, como periódicos de varias columnas o carteles. Para abordar esta limitación, proponemos en este informe Logics-Parsing: un modelo basado en LVLM de extremo a extremo aumentado con aprendizaje por refuerzo. Nuestro modelo incorpora mecanismos de recompensa meticulosamente diseñados para optimizar el análisis de diseños complejos y la inferencia del orden de lectura. Además, ampliamos la versatilidad del modelo al incorporar diversos tipos de datos, como fórmulas químicas y caracteres chinos escritos a mano, en el ajuste fino supervisado. Finalmente, para permitir una evaluación rigurosa de nuestro enfoque, presentamos LogicsParsingBench, un conjunto curado de 1,078 imágenes PDF a nivel de página que abarcan nueve categorías principales y más de veinte subcategorías, que se publicará más adelante. Experimentos exhaustivos realizados en LogicsParsingBench han validado la eficacia y el rendimiento de vanguardia (SOTA) de nuestro modelo propuesto en diversos escenarios de análisis de documentos. Página del proyecto: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing