ChatPaper.aiChatPaper

VERSE: 視覚的埋め込み次元削減と空間探索。視覚的リッチ文書理解における学習データ強化のためのクラスタリング誘導型分析

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

January 8, 2026
著者: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal
cs.AI

要旨

本論文では、視覚的リッチな文書理解に応用される視覚言語モデルの分析と改善のための手法VERSEを提案する。VERSEは、視覚的埋め込み空間を探索することで潜在表現の可視化を可能とし、モデルの実現可能性評価を支援する。さらに、問題のある領域の特定を容易にし、それらのクラスタにおける性能向上のための合成データ生成を導く。本手法は、合成データセットMERITで学習し、実世界データセットであるMERIT Secretで評価することで検証する。結果は、VERSEが誤りを起こしやすいクラスタに関連する視覚特徴を明らかにするのに有効であり、これらの特徴を含むサンプルで再学習することで、一般化性能を劣化させることなくF1スコアを大幅に向上させることを示す。さらに、DonutやIdefics2のようなオンプレミスモデルも、VERSEで最適化することで、GPT-4やPixtralのようなSaaSソリューションの性能に匹敵し、あるいは凌駕することを実証する。
English
This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.
PDF01January 10, 2026