POINTS-Reader: Destillationsfreie Anpassung von Vision-Sprache-Modellen für die Dokumentkonvertierung
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
September 1, 2025
papers.authors: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI
papers.abstract
Hochwertig annotierte Daten sind entscheidend für das Training präziser Dokumentkonvertierungsmodelle, insbesondere in Domänen mit komplexen Formaten wie Tabellen, Formeln und mehrspaltigem Text. Allerdings ist die manuelle Annotation sowohl kostspielig als auch zeitaufwendig, während die automatische Beschriftung mit bestehenden Modellen oft an Genauigkeit bei der Bewältigung solcher anspruchsvollen Szenarien mangelt. Folglich kann das Training von Schülermodellen durch die Destillation von Ausgaben aus Lehrermodellen deren Leistung in realen Anwendungen erheblich einschränken. In diesem Artikel schlagen wir ein vollständig automatisiertes, destillationsfreies Framework vor, das aus zwei Phasen besteht, um hochwertige Datensätze und Modelle für die Dokumentextraktion zu erstellen, die in der Lage sind, diverse Dokumentformate und -layouts zu verarbeiten. In der ersten Phase führen wir eine Methode zur Erzeugung groß angelegter, diverser synthetischer Daten ein, die es einem Modell ermöglicht, Schlüsselelemente in einem einheitlichen Format mit starker Anfangsleistung zu extrahieren. In der zweiten Phase präsentieren wir einen Selbstverbesserungsansatz, der das Modell, das zunächst auf synthetischen Daten trainiert wurde, weiter an reale Dokumente anpasst. Konkret verwenden wir zunächst das feinabgestimmte Modell, um reale Dokumente zu annotieren, wenden dann eine Reihe von Filterstrategien an, um die Qualität der Annotationen zu überprüfen, und trainieren schließlich das Modell auf dem verifizierten Datensatz neu. Durch iteratives Wiederholen dieses Prozesses verbessern wir schrittweise sowohl die Konvertierungsfähigkeiten des Modells als auch die Qualität der generierten Daten. Wir trainieren ein öffentliches POINTS-1.5-Modell, um POINTS-Reader zu erhalten, das viele bestehende öffentliche und proprietäre Modelle vergleichbarer oder größerer Größe übertrifft. Unser Modell ist verfügbar unter https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document
conversion models, particularly in domains with complex formats such as tables,
formulas, and multi-column text. However, manual annotation is both costly and
time-consuming, while automatic labeling using existing models often lacks
accuracy in handling such challenging scenarios. Consequently, training student
models by distilling outputs from teacher models can significantly limit their
performance in real-world applications. In this paper, we propose a fully
automated, distillation-free framework comprising two stages for constructing
high-quality document extraction datasets and models capable of handling
diverse document formats and layouts. In the first stage, we introduce a method
for generating large-scale, diverse synthetic data, which enables a model to
extract key elements in a unified format with strong initial performance. In
the second stage, we present a self-improvement approach that further adapts
the model, initially trained on synthetic data, to real-world documents.
Specifically, we first use the fine-tuned model to annotate real documents,
then apply a suite of filtering strategies to verify annotation quality, and
finally retrain the model on the verified dataset. By iteratively repeating
this process, we progressively enhance both the model's conversion capabilities
and the quality of the generated data. We train a public POINTS-1.5 model to
obtain POINTS-Reader, which surpasses many existing public and proprietary
models of comparable or larger size. Our model is available at
https://github.com/Tencent/POINTS-Reader.