POINTS-Reader: Adattamento Senza Distillazione di Modelli Visione-Linguaggio per la Conversione di Documenti
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
September 1, 2025
Autori: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI
Abstract
Dati etichettati di alta qualità sono essenziali per addestrare modelli precisi di conversione documentale, specialmente in domini con formati complessi come tabelle, formule e testi a più colonne. Tuttavia, l'annotazione manuale è sia costosa che dispendiosa in termini di tempo, mentre l'etichettatura automatica utilizzando modelli esistenti spesso manca di precisione nel gestire tali scenari complessi. Di conseguenza, l'addestramento di modelli studente distillando gli output da modelli insegnante può limitare significativamente le loro prestazioni in applicazioni reali. In questo articolo, proponiamo un framework completamente automatizzato e privo di distillazione, composto da due fasi, per la costruzione di dataset e modelli di estrazione documentale di alta qualità in grado di gestire formati e layout documentali diversificati. Nella prima fase, introduciamo un metodo per generare dati sintetici su larga scala e diversificati, che consente a un modello di estrarre elementi chiave in un formato unificato con prestazioni iniziali solide. Nella seconda fase, presentiamo un approccio di auto-miglioramento che adatta ulteriormente il modello, inizialmente addestrato su dati sintetici, a documenti reali. Nello specifico, utilizziamo prima il modello fine-tuned per annotare documenti reali, poi applichiamo una serie di strategie di filtraggio per verificare la qualità delle annotazioni, e infine riaddestriamo il modello sul dataset verificato. Ripetendo iterativamente questo processo, miglioriamo progressivamente sia le capacità di conversione del modello che la qualità dei dati generati. Addestriamo un modello pubblico POINTS-1.5 per ottenere POINTS-Reader, che supera molti modelli pubblici e proprietari esistenti di dimensioni comparabili o maggiori. Il nostro modello è disponibile all'indirizzo https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document
conversion models, particularly in domains with complex formats such as tables,
formulas, and multi-column text. However, manual annotation is both costly and
time-consuming, while automatic labeling using existing models often lacks
accuracy in handling such challenging scenarios. Consequently, training student
models by distilling outputs from teacher models can significantly limit their
performance in real-world applications. In this paper, we propose a fully
automated, distillation-free framework comprising two stages for constructing
high-quality document extraction datasets and models capable of handling
diverse document formats and layouts. In the first stage, we introduce a method
for generating large-scale, diverse synthetic data, which enables a model to
extract key elements in a unified format with strong initial performance. In
the second stage, we present a self-improvement approach that further adapts
the model, initially trained on synthetic data, to real-world documents.
Specifically, we first use the fine-tuned model to annotate real documents,
then apply a suite of filtering strategies to verify annotation quality, and
finally retrain the model on the verified dataset. By iteratively repeating
this process, we progressively enhance both the model's conversion capabilities
and the quality of the generated data. We train a public POINTS-1.5 model to
obtain POINTS-Reader, which surpasses many existing public and proprietary
models of comparable or larger size. Our model is available at
https://github.com/Tencent/POINTS-Reader.