VERSE: Redução de Incorporação Visual e Exploração de Espaço. Insights Orientados por Agrupamento para Aprimoramento de Dados de Treinamento em Compreensão de Documentos Visualmente Ricos

Resumo

Este trabalho apresenta a VERSE, uma metodologia para analisar e melhorar Modelos de Visão e Linguagem aplicados à Compreensão de Documentos Visualmente Ricos, explorando o seu espaço de incorporação visual. A VERSE permite a visualização de representações latentes, apoiando a avaliação da viabilidade do modelo. Ela também facilita a identificação de regiões problemáticas e orienta a geração de dados sintéticos para melhorar o desempenho nesses agrupamentos. Validamos a metodologia treinando no conjunto de dados sintético MERIT e avaliando na sua contraparte do mundo real, o MERIT Secret. Os resultados mostram que a VERSE ajuda a descobrir as características visuais associadas a agrupamentos propensos a erros e que o retreinamento com amostras contendo essas características aumenta substancialmente o desempenho F1 sem degradar a generalização. Além disso, demonstramos que modelos locais, como Donut e Idefics2, quando otimizados com a VERSE, igualam ou até superam o desempenho de soluções SaaS, como GPT-4 e Pixtral.

English

This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.