TRivia: Самообучение с тонкой настройкой визуально-языковых моделей для распознавания таблиц
TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
December 1, 2025
Авторы: Junyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He
cs.AI
Аннотация
Распознавание таблиц (TR) ставит целью преобразование изображений таблиц в полуструктурированные представления, такие как HTML или Markdown. Будучи ключевым компонентом парсинга документов, TR долгое время опирался на обучение с учителем, а в последнее время доминируют подходы с дообучением визуально-языковых моделей (VLM) на размеченных данных. Хотя VLM вывели TR на новый уровень, дальнейшее повышение производительности требует крупномасштабных размеченных данных, получение которых дорогостояще. Как следствие, хотя проприетарные модели постоянно расширяют границы возможностей, модели с открытым исходным кодом, часто обучаемые с ограниченными ресурсами и на практике являющиеся единственным жизнеспособным вариантом для многих из-за нормативов конфиденциальности, все еще значительно отстают. Чтобы сократить этот разрыв, мы представляем TRivia — метод самообучаемого дообучения, который позволяет предобученным VLM изучать TR непосредственно из немаркированных изображений таблиц в естественных условиях. Построенный на основе Group Relative Policy Optimization, TRivia автоматически идентифицирует немаркированные примеры, которые наиболее эффективно способствуют обучению, и устраняет необходимость в человеческих разметках через механизм вознаграждений на основе вопросно-ответной системы. Модуль с управлением вниманием генерирует разнообразные вопросы для каждого изображения таблицы, а способность интерпретировать результаты распознавания и правильно отвечать на них предоставляет обратную связь для оптимизации TR-модели. Этот замкнутый процесс позволяет TR-модели автономно обучаться распознаванию, структурированию и логическому анализу таблиц без размеченных данных. Используя этот конвейер, мы представляем TRivia-3B — открытую, компактную и передовую TR-модель, которая превосходит существующие системы (например, Gemini 2.5 Pro, MinerU2.5) на трех популярных бенчмарках. Модель и код доступны по адресу: https://github.com/opendatalab/TRivia
English
Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia