ChatPaper.aiChatPaper

POINTS-Reader: Distillatievrije aanpassing van visueel-taalmodel voor documentconversie

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

September 1, 2025
Auteurs: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI

Samenvatting

Hoogwaardige gelabelde gegevens zijn essentieel voor het trainen van nauwkeurige documentconversiemodellen, met name in domeinen met complexe formaten zoals tabellen, formules en tekst met meerdere kolommen. Handmatige annotatie is echter zowel kostbaar als tijdrovend, terwijl automatische labeling met behulp van bestaande modellen vaak onnauwkeurig is in dergelijke uitdagende scenario's. Hierdoor kan het trainen van studentmodellen door het destilleren van uitvoer van leraarmodellen hun prestaties in real-world toepassingen aanzienlijk beperken. In dit artikel stellen we een volledig geautomatiseerd, destillatievrij raamwerk voor dat uit twee fasen bestaat voor het construeren van hoogwaardige documentextractie-datasets en modellen die in staat zijn om diverse documentformaten en lay-outs te verwerken. In de eerste fase introduceren we een methode voor het genereren van grootschalige, diverse synthetische gegevens, waardoor een model sleutelelementen in een uniform formaat kan extraheren met een sterke initiële prestatie. In de tweede fase presenteren we een zelfverbeteringsaanpak die het model, aanvankelijk getraind op synthetische gegevens, verder aanpast aan real-world documenten. Specifiek gebruiken we eerst het fijn afgestemde model om echte documenten te annoteren, passen we vervolgens een reeks filterstrategieën toe om de annotatiekwaliteit te verifiëren, en trainen we het model ten slotte opnieuw op de geverifieerde dataset. Door dit proces iteratief te herhalen, verbeteren we zowel de conversiecapaciteiten van het model als de kwaliteit van de gegenereerde gegevens progressief. We trainen een openbaar POINTS-1.5-model om POINTS-Reader te verkrijgen, dat veel bestaande openbare en propriëtaire modellen van vergelijkbare of grotere omvang overtreft. Ons model is beschikbaar op https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document conversion models, particularly in domains with complex formats such as tables, formulas, and multi-column text. However, manual annotation is both costly and time-consuming, while automatic labeling using existing models often lacks accuracy in handling such challenging scenarios. Consequently, training student models by distilling outputs from teacher models can significantly limit their performance in real-world applications. In this paper, we propose a fully automated, distillation-free framework comprising two stages for constructing high-quality document extraction datasets and models capable of handling diverse document formats and layouts. In the first stage, we introduce a method for generating large-scale, diverse synthetic data, which enables a model to extract key elements in a unified format with strong initial performance. In the second stage, we present a self-improvement approach that further adapts the model, initially trained on synthetic data, to real-world documents. Specifically, we first use the fine-tuned model to annotate real documents, then apply a suite of filtering strategies to verify annotation quality, and finally retrain the model on the verified dataset. By iteratively repeating this process, we progressively enhance both the model's conversion capabilities and the quality of the generated data. We train a public POINTS-1.5 model to obtain POINTS-Reader, which surpasses many existing public and proprietary models of comparable or larger size. Our model is available at https://github.com/Tencent/POINTS-Reader.
PDF504September 3, 2025