Relatório Técnico de Análise de Lógicas
Logics-Parsing Technical Report
September 24, 2025
Autores: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
Resumo
Os recentes avanços em modelos de Visão e Linguagem de Grande Escala (LVLM) têm impulsionado progressos significativos na tarefa de análise de documentos. Em comparação com os métodos tradicionais baseados em pipelines, os paradigmas end-to-end têm demonstrado excelência na conversão de imagens PDF em saídas estruturadas por meio da integração de Reconhecimento Óptico de Caracteres (OCR), reconhecimento de tabelas, reconhecimento de fórmulas matemáticas, entre outros. No entanto, a ausência de etapas analíticas explícitas para layouts de documentos e ordens de leitura limita a capacidade dos LVLM de lidar com tipos complexos de documentos, como jornais de múltiplas colunas ou pôsteres. Para abordar essa limitação, propomos neste relatório o Logics-Parsing: um modelo baseado em LVLM end-to-end aprimorado com aprendizado por reforço. Nosso modelo incorpora mecanismos de recompensa meticulosamente projetados para otimizar a análise de layouts complexos e a inferência de ordem de leitura. Além disso, expandimos a versatilidade do modelo ao incorporar diversos tipos de dados, como fórmulas químicas e caracteres chineses manuscritos, no ajuste fino supervisionado. Por fim, para permitir uma avaliação rigorosa da nossa abordagem, introduzimos o LogicsParsingBench, um conjunto curado de 1.078 imagens PDF em nível de página, abrangendo nove categorias principais e mais de vinte subcategorias, que será lançado posteriormente. Experimentos abrangentes realizados no LogicsParsingBench validaram a eficácia e o desempenho de última geração (State-of-the-art, SOTA) do nosso modelo proposto em diversos cenários de análise de documentos. Página do Projeto: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing