ChatPaper.aiChatPaper

VERSE: Reducción de Incrustaciones Visuales y Exploración del Espacio. Perspectivas Guiadas por Agrupamiento para la Mejora de Datos de Entrenamiento en la Comprensión de Documentos Visualmente Ricos

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

January 8, 2026
Autores: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal
cs.AI

Resumen

Este trabajo presenta VERSE, una metodología para analizar y mejorar los Modelos de Lenguaje y Visión aplicados a la Comprensión de Documentos Visualmente Ricos mediante la exploración de su espacio de incrustaciones visuales. VERSE permite visualizar las representaciones latentes, respaldando la evaluación de la viabilidad del modelo. También facilita la identificación de regiones problemáticas y guía la generación de datos sintéticos para mejorar el rendimiento en esos conglomerados. Validamos la metodología entrenando con el conjunto de datos sintético MERIT y evaluando en su contraparte del mundo real, MERIT Secret. Los resultados muestran que VERSE ayuda a descubrir las características visuales asociadas con conglomerados propensos a errores, y que el reentrenamiento con muestras que contienen estas características aumenta sustancialmente el rendimiento F1 sin degradar la generalización. Además, demostramos que modelos locales como Donut e Idefics2, cuando se optimizan con VERSE, igualan o incluso superan el rendimiento de soluciones SaaS como GPT-4 y Pixtral.
English
This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.
PDF01January 10, 2026