ChatPaper.aiChatPaper

TRivia: 테블로 인식을 위한 시각-언어 모델의 자기 지도 미세 조정

TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

December 1, 2025
저자: Junyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He
cs.AI

초록

표 인식(TR)은 표 이미지를 HTML 또는 Markdown과 같은 반구조화된 표현으로 변환하는 것을 목표로 합니다. 문서 구문 분석의 핵심 구성 요소로서 TR은 오랫동안 지도 학습에 의존해 왔으며, 최근에는 레이블이 지정된 데이터를 사용한 시각-언어 모델(VLM) 미세 조정이 주를 이루고 있습니다. VLM이 TR을 다음 단계로 끌어올렸지만, 성능을 더욱 향상시키기 위해서는 확보 비용이 많이 드는 대규모 레이블 데이터가 필요합니다. 그 결과, 독점 모델들은 지속적으로 성능 한계를 넓혀왔지만, 제한된 자원으로 훈련되며 실제로는 개인정보 보호 규정으로 인해 많은 경우 유일한 실용적 선택지인 오픈소스 모델들은 여전히 크게 뒤처져 있습니다. 이 격차를 해소하기 위해 우리는 사전 훈련된 VLM이 레이블이 없는 실제 표 이미지로부터 직접 TR을 학습할 수 있도록 하는 자기 지도 미세 조정 방법인 TRivia를 소개합니다. 그룹 상대 정책 최적화를 기반으로 구축된 TRivia는 학습을 가장 효과적으로 촉진하는 레이블 없는 샘플을 자동으로 식별하고, 질의-응답 기반 보상 메커니즘을 통해 인간의 주석 작업 필요성을 제거합니다. 주의 안내 모듈은 각 표 이미지에 대해 다양한 질문을 생성하며, 인식 결과를 해석하고 이를 정확히 답변하는 능력은 TR 모델 최적화를 위한 피드백을 제공합니다. 이 폐쇄형 과정을 통해 TR 모델은 레이블된 데이터 없이도 표를 인식, 구조화, 추론하는 방법을 자율적으로 학습할 수 있습니다. 이 파이프라인을 활용하여 우리는 기존 시스템들(Gemini 2.5 Pro, MinerU2.5 등)을 세 가지 인기 벤치마크에서 능가하는 오픈소스이면서 컴팩트하고 최첨단인 TR 모델인 TRivia-3B를 선보입니다. 모델과 코드는 다음에서 공개됩니다: https://github.com/opendatalab/TRivia
English
Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia
PDF71December 4, 2025