ChatPaper.aiChatPaper

VERSE: Визуальное сокращение эмбеддингов и исследование пространства. Кластеризация для улучшения обучающих данных в понимании визуально-насыщенных документов

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

January 8, 2026
Авторы: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal
cs.AI

Аннотация

Данная работа представляет методологию VERSE для анализа и улучшения Vision-Language Models, применяемых в задачах понимания визуально-насыщенных документов, путем исследования их визуального пространства эмбеддингов. VERSE позволяет визуализировать латентные представления, что поддерживает оценку осуществимости модели. Метод также облегчает выявление проблемных областей и направляет генерацию синтетических данных для улучшения производительности в соответствующих кластерах. Мы проверяем методологию, обучая модели на синтетическом наборе данных MERIT и оценивая их на реальном наборе MERIT Secret. Результаты показывают, что VERSE помогает выявить визуальные признаки, связанные с ошибкоопасными кластерами, и что дообучение на выборках, содержащих эти признаки, существенно повышает F1-меру без ухудшения обобщающей способности. Кроме того, мы демонстрируем, что локальные модели, такие как Donut и Idefics2, оптимизированные с помощью VERSE, достигают или даже превосходят производительность SaaS-решений, подобных GPT-4 и Pixtral.
English
This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.
PDF01January 10, 2026