POINTS-Reader: Adaptación sin Destilación de Modelos de Visión y Lenguaje para la Conversión de Documentos
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
September 1, 2025
Autores: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
cs.AI
Resumen
Los datos etiquetados de alta calidad son esenciales para entrenar modelos precisos de conversión de documentos, especialmente en dominios con formatos complejos como tablas, fórmulas y texto multicolumna. Sin embargo, la anotación manual es costosa y consume mucho tiempo, mientras que el etiquetado automático utilizando modelos existentes a menudo carece de precisión al manejar estos escenarios desafiantes. En consecuencia, entrenar modelos estudiantiles mediante la destilación de salidas de modelos maestros puede limitar significativamente su rendimiento en aplicaciones del mundo real. En este artículo, proponemos un marco completamente automatizado y libre de destilación que consta de dos etapas para construir conjuntos de datos y modelos de extracción de documentos de alta calidad capaces de manejar diversos formatos y diseños de documentos. En la primera etapa, introducimos un método para generar datos sintéticos diversos a gran escala, lo que permite que un modelo extraiga elementos clave en un formato unificado con un fuerte rendimiento inicial. En la segunda etapa, presentamos un enfoque de auto-mejora que adapta aún más el modelo, inicialmente entrenado con datos sintéticos, a documentos del mundo real. Específicamente, primero utilizamos el modelo ajustado para anotar documentos reales, luego aplicamos un conjunto de estrategias de filtrado para verificar la calidad de las anotaciones y finalmente reentrenamos el modelo con el conjunto de datos verificado. Al repetir este proceso de manera iterativa, mejoramos progresivamente tanto las capacidades de conversión del modelo como la calidad de los datos generados. Entrenamos un modelo público POINTS-1.5 para obtener POINTS-Reader, que supera a muchos modelos públicos y propietarios existentes de tamaño comparable o mayor. Nuestro modelo está disponible en https://github.com/Tencent/POINTS-Reader.
English
High-quality labeled data is essential for training accurate document
conversion models, particularly in domains with complex formats such as tables,
formulas, and multi-column text. However, manual annotation is both costly and
time-consuming, while automatic labeling using existing models often lacks
accuracy in handling such challenging scenarios. Consequently, training student
models by distilling outputs from teacher models can significantly limit their
performance in real-world applications. In this paper, we propose a fully
automated, distillation-free framework comprising two stages for constructing
high-quality document extraction datasets and models capable of handling
diverse document formats and layouts. In the first stage, we introduce a method
for generating large-scale, diverse synthetic data, which enables a model to
extract key elements in a unified format with strong initial performance. In
the second stage, we present a self-improvement approach that further adapts
the model, initially trained on synthetic data, to real-world documents.
Specifically, we first use the fine-tuned model to annotate real documents,
then apply a suite of filtering strategies to verify annotation quality, and
finally retrain the model on the verified dataset. By iteratively repeating
this process, we progressively enhance both the model's conversion capabilities
and the quality of the generated data. We train a public POINTS-1.5 model to
obtain POINTS-Reader, which surpasses many existing public and proprietary
models of comparable or larger size. Our model is available at
https://github.com/Tencent/POINTS-Reader.