ViGoR: Migliorare il grounding visivo dei grandi modelli linguistici e visivi attraverso la modellazione di ricompense a grana fine

Abstract

Combinando la comprensione del linguaggio naturale e le capacità di generazione e l'ampiezza di conoscenza dei grandi modelli linguistici con la percezione visiva, i recenti grandi modelli visivo-linguistici (LVLM) hanno dimostrato capacità di ragionamento senza precedenti nel mondo reale. Tuttavia, il testo generato spesso soffre di un ancoraggio impreciso all'input visivo, risultando in errori come l'allucinazione di elementi di scena inesistenti, la mancanza di parti significative della scena e l'inferenza di attributi e relazioni errati tra gli oggetti. Per affrontare questi problemi, introduciamo un nuovo framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), che utilizza un modello di ricompensa fine per migliorare significativamente l'ancoraggio visivo dei LVLM rispetto ai baseline pre-addestrati. Questo miglioramento viene raggiunto in modo efficiente utilizzando valutazioni umane molto più economiche invece di supervisioni complete, nonché metodi automatizzati. Dimostriamo l'efficacia del nostro approccio attraverso numerose metriche su diversi benchmark. Inoltre, costruiamo un dataset completo e impegnativo specificamente progettato per validare le capacità di ancoraggio visivo dei LVLM. Infine, prevediamo di rilasciare le nostre annotazioni umane comprendenti circa 16.000 immagini e coppie di testo generato con valutazioni fine, per contribuire alle ricerche correlate nella comunità.

English

By combining natural language understanding and the generation capabilities and breadth of knowledge of large language models with image perception, recent large vision language models (LVLMs) have shown unprecedented reasoning capabilities in the real world. However, the generated text often suffers from inaccurate grounding in the visual input, resulting in errors such as hallucinating nonexistent scene elements, missing significant parts of the scene, and inferring incorrect attributes and relationships between objects. To address these issues, we introduce a novel framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling) that utilizes fine-grained reward modeling to significantly enhance the visual grounding of LVLMs over pre-trained baselines. This improvement is efficiently achieved using much cheaper human evaluations instead of full supervisions, as well as automated methods. We show the effectiveness of our approach through numerous metrics on several benchmarks. Additionally, we construct a comprehensive and challenging dataset specifically designed to validate the visual grounding capabilities of LVLMs. Finally, we plan to release our human annotation comprising approximately 16,000 images and generated text pairs with fine-grained evaluations to contribute to related research in the community.

ViGoR: Migliorare il grounding visivo dei grandi modelli linguistici e visivi attraverso la modellazione di ricompense a grana fine

ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Abstract

Support