VERSE : Réduction d'Embedding Visuel et Exploration de l'Espace. Perspectives Guidées par le Clustering pour l'Amélioration des Données d'Entraînement dans la Compréhension de Documents Visuellement Riches
VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding
January 8, 2026
papers.authors: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal
cs.AI
papers.abstract
Ce travail présente VERSE, une méthodologie pour analyser et améliorer les modèles vision-langage appliqués à la compréhension de documents visuellement riches en explorant leur espace d'incorporation visuel. VERSE permet la visualisation des représentations latentes, soutenant ainsi l'évaluation de la faisabilité du modèle. Il facilite également l'identification des régions problématiques et guide la génération de données synthétiques pour améliorer les performances dans ces clusters. Nous validons la méthodologie en entraînant les modèles sur le jeu de données synthétique MERIT et en évaluant sur sa contrepartie réelle, MERIT Secret. Les résultats montrent que VERSE aide à découvrir les caractéristiques visuelles associées aux clusters sujets aux erreurs, et que le réentraînement avec des échantillons contenant ces caractéristiques améliore substantiellement la performance F1 sans dégrader la généralisation. De plus, nous démontrons que les modèles on-premise tels que Donut et Idefics2, lorsqu'ils sont optimisés avec VERSE, égalent ou surpassent même les performances des solutions SaaS comme GPT-4 et Pixtral.
English
This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.