POINTS-Reader: Adaptação Livre de Destilação de Modelos Visão-Linguagem para Conversão de Documentos
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
September 1, 2025
Autores: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI
Resumo
Dados rotulados de alta qualidade são essenciais para treinar modelos precisos de conversão de documentos, especialmente em domínios com formatos complexos, como tabelas, fórmulas e textos com múltiplas colunas. No entanto, a anotação manual é cara e demorada, enquanto a rotulação automática usando modelos existentes frequentemente carece de precisão ao lidar com cenários desafiadores. Consequentemente, treinar modelos estudantis por meio da destilação de saídas de modelos professores pode limitar significativamente seu desempenho em aplicações do mundo real. Neste artigo, propomos uma estrutura totalmente automatizada e livre de destilação, composta por duas etapas, para construir conjuntos de dados e modelos de extração de documentos de alta qualidade, capazes de lidar com diversos formatos e layouts de documentos. Na primeira etapa, introduzimos um método para gerar dados sintéticos em larga escala e diversificados, o que permite que um modelo extraia elementos-chave em um formato unificado com um forte desempenho inicial. Na segunda etapa, apresentamos uma abordagem de autoaperfeiçoamento que adapta ainda mais o modelo, inicialmente treinado com dados sintéticos, a documentos do mundo real. Especificamente, primeiro usamos o modelo ajustado para anotar documentos reais, depois aplicamos um conjunto de estratégias de filtragem para verificar a qualidade das anotações e, finalmente, retreinamos o modelo no conjunto de dados verificado. Ao repetir esse processo iterativamente, aprimoramos progressivamente tanto as capacidades de conversão do modelo quanto a qualidade dos dados gerados. Treinamos um modelo público POINTS-1.5 para obter o POINTS-Reader, que supera muitos modelos públicos e proprietários existentes de tamanho comparável ou maior. Nosso modelo está disponível em https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document
conversion models, particularly in domains with complex formats such as tables,
formulas, and multi-column text. However, manual annotation is both costly and
time-consuming, while automatic labeling using existing models often lacks
accuracy in handling such challenging scenarios. Consequently, training student
models by distilling outputs from teacher models can significantly limit their
performance in real-world applications. In this paper, we propose a fully
automated, distillation-free framework comprising two stages for constructing
high-quality document extraction datasets and models capable of handling
diverse document formats and layouts. In the first stage, we introduce a method
for generating large-scale, diverse synthetic data, which enables a model to
extract key elements in a unified format with strong initial performance. In
the second stage, we present a self-improvement approach that further adapts
the model, initially trained on synthetic data, to real-world documents.
Specifically, we first use the fine-tuned model to annotate real documents,
then apply a suite of filtering strategies to verify annotation quality, and
finally retrain the model on the verified dataset. By iteratively repeating
this process, we progressively enhance both the model's conversion capabilities
and the quality of the generated data. We train a public POINTS-1.5 model to
obtain POINTS-Reader, which surpasses many existing public and proprietary
models of comparable or larger size. Our model is available at
https://github.com/Tencent/POINTS-Reader.