ChatPaper.aiChatPaper

VERSE: Visuelle Einbettungsreduktion und Raumexploration. Clustering-gesteuerte Erkenntnisse zur Verbesserung von Trainingsdaten im Verständnis visuell anspruchsvoller Dokumente.

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

January 8, 2026
papers.authors: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal
cs.AI

papers.abstract

Diese Arbeit stellt VERSE vor, eine Methodik zur Analyse und Verbesserung von Vision-Language-Modellen im Bereich des Verstehens visuell reicher Dokumente durch die Erforschung ihres visuellen Einbettungsraums. VERSE ermöglicht die Visualisierung latenter Repräsentationen und unterstützt so die Bewertung der Modelltauglichkeit. Es erleichtert zudem die Identifikation problematischer Regionen und leitet die Generierung synthetischer Daten an, um die Leistung in diesen Clustern zu verbessern. Wir validieren die Methodik, indem wir mit dem synthetischen MERIT-Datensatz trainieren und auf seinem realen Pendant, MERIT Secret, evaluieren. Die Ergebnisse zeigen, dass VERSE hilft, die visuellen Merkmale aufzudecken, die mit fehleranfälligen Clustern assoziiert sind, und dass ein Retraining mit Stichproben, die diese Merkmale enthalten, die F1-Leistung erheblich steigert, ohne die Generalisierungsfähigkeit zu beeinträchtigen. Darüber hinaus demonstrieren wir, dass On-Premise-Modelle wie Donut und Idefics2, wenn sie mit VERSE optimiert werden, die Leistung von SaaS-Lösungen wie GPT-4 und Pixtral erreichen oder sogar übertreffen.
English
This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.
PDF01January 10, 2026