ChatPaper.aiChatPaper

VERSE: 시각적 임베딩 축소 및 공간 탐색. 시각적 문서 이해를 위한 훈련 데이터 향상을 위한 클러스터링 기반 통찰

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

January 8, 2026
저자: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal
cs.AI

초록

본 연구에서는 시각적으로 풍부한 문서 이해를 위해 적용된 Vision-Language 모델의 시각적 임베딩 공간을 탐구하여 분석 및 성능 향상을 도모하는 방법론인 VERSE를 소개합니다. VERSE는 잠재 표현을 시각화하여 모델의 적용 가능성 평가를 지원합니다. 또한 문제가 되는 영역 식별을 용이하게 하고, 해당 클러스터에서의 성능을 향상시키기 위한 합성 데이터 생성 방향을 제시합니다. 본 방법론은 합성 MERIT 데이터셋으로 학습하고 실제 데이터인 MERIT Secret으로 평가하여 검증하였습니다. 결과에 따르면 VERSE는 오류가 발생하기 쉬운 클러스터와 연관된 시각적 특징을 발견하는 데 도움이 되며, 이러한 특징을 포함한 샘플로 재학습을 진행하면 일반화 성능을 저하시키지 않으면서 F1 성능을 크게 향상시킬 수 있습니다. 더 나아가 Donut 및 Idefics2와 같은 온-프레미스 모델이 VERSE로 최적화될 경우, GPT-4나 Pixtral 같은 SaaS 솔루션의 성능을 따라잡거나 능가할 수 있음을 입증합니다.
English
This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.
PDF01January 10, 2026