VERSE: Visuele Inbeddingsreductie en Ruimteverkenning. Clustering-gestuurde inzichten voor verbetering van trainingsgegevens in visueel-rijke documentbegrip.

Samenvatting

Dit werk introduceert VERSE, een methodologie voor het analyseren en verbeteren van Vision-Language Models toegepast op Visueel-rijke Documentinterpretatie door hun visuele embeddingruimte te verkennen. VERSE maakt de visualisatie van latente representaties mogelijk, wat de beoordeling van de modelhaalbaarheid ondersteunt. Het vergemakkelijkt ook de identificatie van problematische regio's en leidt de generatie van synthetische data om de prestaties in die clusters te verbeteren. We valideren de methodologie door training op de synthetische MERIT Dataset en evaluatie op de real-world tegenhanger, MERIT Secret. Resultaten tonen aan dat VERSE helpt om de visuele kenmerken bloot te leggen die geassocieerd zijn met foutgevoelige clusters, en dat hertraining met voorbeelden die deze kenmerken bevatten de F1-prestatie aanzienlijk verbetert zonder de generalisatie te verminderen. Verder demonstreren we dat on-premise modellen zoals Donut en Idefics2, wanneer geoptimaliseerd met VERSE, de prestaties evenaren of zelfs overtreffen van SaaS-oplossingen zoals GPT-4 en Pixtral.

English

This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.

VERSE: Visuele Inbeddingsreductie en Ruimteverkenning. Clustering-gestuurde inzichten voor verbetering van trainingsgegevens in visueel-rijke documentbegrip.

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

Samenvatting

Support