ViGoR: Migliorare il grounding visivo dei grandi modelli linguistici e visivi attraverso la modellazione di ricompense a grana fine
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling
February 9, 2024
Autori: Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li
cs.AI
Abstract
Combinando la comprensione del linguaggio naturale e le capacità di generazione e l'ampiezza di conoscenza dei grandi modelli linguistici con la percezione visiva, i recenti grandi modelli visivo-linguistici (LVLM) hanno dimostrato capacità di ragionamento senza precedenti nel mondo reale. Tuttavia, il testo generato spesso soffre di un ancoraggio impreciso all'input visivo, risultando in errori come l'allucinazione di elementi di scena inesistenti, la mancanza di parti significative della scena e l'inferenza di attributi e relazioni errati tra gli oggetti. Per affrontare questi problemi, introduciamo un nuovo framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), che utilizza un modello di ricompensa fine per migliorare significativamente l'ancoraggio visivo dei LVLM rispetto ai baseline pre-addestrati. Questo miglioramento viene raggiunto in modo efficiente utilizzando valutazioni umane molto più economiche invece di supervisioni complete, nonché metodi automatizzati. Dimostriamo l'efficacia del nostro approccio attraverso numerose metriche su diversi benchmark. Inoltre, costruiamo un dataset completo e impegnativo specificamente progettato per validare le capacità di ancoraggio visivo dei LVLM. Infine, prevediamo di rilasciare le nostre annotazioni umane comprendenti circa 16.000 immagini e coppie di testo generato con valutazioni fine, per contribuire alle ricerche correlate nella comunità.
English
By combining natural language understanding and the generation capabilities
and breadth of knowledge of large language models with image perception, recent
large vision language models (LVLMs) have shown unprecedented reasoning
capabilities in the real world. However, the generated text often suffers from
inaccurate grounding in the visual input, resulting in errors such as
hallucinating nonexistent scene elements, missing significant parts of the
scene, and inferring incorrect attributes and relationships between objects. To
address these issues, we introduce a novel framework, ViGoR (Visual Grounding
Through Fine-Grained Reward Modeling) that utilizes fine-grained reward
modeling to significantly enhance the visual grounding of LVLMs over
pre-trained baselines. This improvement is efficiently achieved using much
cheaper human evaluations instead of full supervisions, as well as automated
methods. We show the effectiveness of our approach through numerous metrics on
several benchmarks. Additionally, we construct a comprehensive and challenging
dataset specifically designed to validate the visual grounding capabilities of
LVLMs. Finally, we plan to release our human annotation comprising
approximately 16,000 images and generated text pairs with fine-grained
evaluations to contribute to related research in the community.