ChatPaper.aiChatPaper

POINTS-Reader : Adaptation sans distillation de modèles vision-langage pour la conversion de documents

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

September 1, 2025
papers.authors: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI

papers.abstract

Des données étiquetées de haute qualité sont essentielles pour entraîner des modèles de conversion de documents précis, en particulier dans des domaines aux formats complexes tels que les tableaux, les formules et les textes à colonnes multiples. Cependant, l'annotation manuelle est à la fois coûteuse et chronophage, tandis que l'étiquetage automatique utilisant des modèles existants manque souvent de précision dans la gestion de tels scénarios complexes. Par conséquent, l'entraînement de modèles étudiants par distillation des sorties de modèles enseignants peut considérablement limiter leurs performances dans des applications réelles. Dans cet article, nous proposons un cadre entièrement automatisé et sans distillation, composé de deux étapes, pour construire des ensembles de données et des modèles d'extraction de documents de haute qualité capables de gérer divers formats et mises en page de documents. Dans la première étape, nous introduisons une méthode pour générer des données synthétiques à grande échelle et diversifiées, permettant à un modèle d'extraire des éléments clés dans un format unifié avec une performance initiale solide. Dans la deuxième étape, nous présentons une approche d'auto-amélioration qui adapte davantage le modèle, initialement entraîné sur des données synthétiques, aux documents réels. Plus précisément, nous utilisons d'abord le modèle affiné pour annoter des documents réels, puis nous appliquons une série de stratégies de filtrage pour vérifier la qualité des annotations, et enfin nous réentraînons le modèle sur l'ensemble de données vérifié. En répétant ce processus de manière itérative, nous améliorons progressivement à la fois les capacités de conversion du modèle et la qualité des données générées. Nous entraînons un modèle public POINTS-1.5 pour obtenir POINTS-Reader, qui surpasse de nombreux modèles publics et propriétaires existants de taille comparable ou plus grande. Notre modèle est disponible à l'adresse https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document conversion models, particularly in domains with complex formats such as tables, formulas, and multi-column text. However, manual annotation is both costly and time-consuming, while automatic labeling using existing models often lacks accuracy in handling such challenging scenarios. Consequently, training student models by distilling outputs from teacher models can significantly limit their performance in real-world applications. In this paper, we propose a fully automated, distillation-free framework comprising two stages for constructing high-quality document extraction datasets and models capable of handling diverse document formats and layouts. In the first stage, we introduce a method for generating large-scale, diverse synthetic data, which enables a model to extract key elements in a unified format with strong initial performance. In the second stage, we present a self-improvement approach that further adapts the model, initially trained on synthetic data, to real-world documents. Specifically, we first use the fine-tuned model to annotate real documents, then apply a suite of filtering strategies to verify annotation quality, and finally retrain the model on the verified dataset. By iteratively repeating this process, we progressively enhance both the model's conversion capabilities and the quality of the generated data. We train a public POINTS-1.5 model to obtain POINTS-Reader, which surpasses many existing public and proprietary models of comparable or larger size. Our model is available at https://github.com/Tencent/POINTS-Reader.
PDF423September 3, 2025