POINTS-Reader: Адаптация моделей "визуальное восприятие-язык" для преобразования документов без использования дистилляции
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
September 1, 2025
Авторы: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI
Аннотация
Высококачественные размеченные данные крайне важны для обучения точных моделей преобразования документов, особенно в областях со сложными форматами, такими как таблицы, формулы и многоколоночный текст. Однако ручная разметка является дорогостоящей и трудоемкой, в то время как автоматическая разметка с использованием существующих моделей часто не обеспечивает достаточной точности в таких сложных сценариях. В результате обучение студенческих моделей путем дистилляции выходных данных учительских моделей может существенно ограничить их производительность в реальных приложениях. В данной статье мы предлагаем полностью автоматизированный подход, не требующий дистилляции, состоящий из двух этапов для создания высококачественных наборов данных и моделей извлечения документов, способных обрабатывать разнообразные форматы и макеты документов. На первом этапе мы представляем метод генерации крупномасштабных синтетических данных, который позволяет модели извлекать ключевые элементы в унифицированном формате с высокой начальной производительностью. На втором этапе мы предлагаем подход к самоулучшению, который дополнительно адаптирует модель, изначально обученную на синтетических данных, к реальным документам. В частности, мы сначала используем тонко настроенную модель для разметки реальных документов, затем применяем набор стратегий фильтрации для проверки качества разметки и, наконец, переобучаем модель на проверенном наборе данных. Итеративно повторяя этот процесс, мы постепенно улучшаем как способности модели к преобразованию, так и качество генерируемых данных. Мы обучаем публичную модель POINTS-1.5 для получения POINTS-Reader, которая превосходит многие существующие публичные и проприетарные модели сопоставимого или большего размера. Наша модель доступна по адресу https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document
conversion models, particularly in domains with complex formats such as tables,
formulas, and multi-column text. However, manual annotation is both costly and
time-consuming, while automatic labeling using existing models often lacks
accuracy in handling such challenging scenarios. Consequently, training student
models by distilling outputs from teacher models can significantly limit their
performance in real-world applications. In this paper, we propose a fully
automated, distillation-free framework comprising two stages for constructing
high-quality document extraction datasets and models capable of handling
diverse document formats and layouts. In the first stage, we introduce a method
for generating large-scale, diverse synthetic data, which enables a model to
extract key elements in a unified format with strong initial performance. In
the second stage, we present a self-improvement approach that further adapts
the model, initially trained on synthetic data, to real-world documents.
Specifically, we first use the fine-tuned model to annotate real documents,
then apply a suite of filtering strategies to verify annotation quality, and
finally retrain the model on the verified dataset. By iteratively repeating
this process, we progressively enhance both the model's conversion capabilities
and the quality of the generated data. We train a public POINTS-1.5 model to
obtain POINTS-Reader, which surpasses many existing public and proprietary
models of comparable or larger size. Our model is available at
https://github.com/Tencent/POINTS-Reader.