VERSE: Riduzione degli Incorporamenti Visivi ed Esplorazione dello Spazio. Approfondimenti Guidati dal Clustering per il Miglioramento dei Dati di Addestramento nella Comprensione di Documenti Ricchi di Elementi Visivi

Abstract

Questo lavoro introduce VERSE, una metodologia per analizzare e migliorare i Modelli Visione-Linguaggio applicati alla Comprensione di Documenti Visivamente Ricchi, esplorandone lo spazio degli embedding visivi. VERSE consente la visualizzazione delle rappresentazioni latenti, supportando la valutazione della fattibilità del modello. Facilita inoltre l'identificazione di regioni problematiche e guida la generazione di dati sintetici per migliorare le prestazioni in quei cluster. Convalidiamo la metodologia addestrando sul dataset sintetico MERIT e valutando sulla sua controparte reale, MERIT Secret. I risultati mostrano che VERSE aiuta a scoprire le caratteristiche visive associate a cluster soggetti a errori e che il riaddestramento con campioni contenenti queste caratteristiche aumenta sostanzialmente le prestazioni F1 senza degradare la generalizzazione. Inoltre, dimostriamo che modelli on-premise come Donut e Idefics2, quando ottimizzati con VERSE, eguagliano o addirittura superano le prestazioni di soluzioni SaaS come GPT-4 e Pixtral.

English

This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.

VERSE: Riduzione degli Incorporamenti Visivi ed Esplorazione dello Spazio. Approfondimenti Guidati dal Clustering per il Miglioramento dei Dati di Addestramento nella Comprensione di Documenti Ricchi di Elementi Visivi

VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

Abstract

Support