ViGoR: Verbesserung der visuellen Verankerung großer visuell-sprachlicher Modelle durch feinkörnige Belohnungsmodellierung
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling
February 9, 2024
Autoren: Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li
cs.AI
Zusammenfassung
Durch die Kombination von natürlichem Sprachverständnis, den Generierungsfähigkeiten und der breiten Wissensbasis großer Sprachmodelle mit der Bildwahrnehmung haben aktuelle große visuell-sprachliche Modelle (LVLMs) beispiellose Fähigkeiten zur Schlussfolgerung in der realen Welt gezeigt. Allerdings leidet der generierte Text oft unter einer ungenauen Verankerung im visuellen Input, was zu Fehlern wie der Halluzination nicht vorhandener Szenelemente, dem Übersehen signifikanter Teile der Szene sowie der falschen Ableitung von Attributen und Beziehungen zwischen Objekten führt. Um diese Probleme zu adressieren, stellen wir ein neuartiges Framework vor, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), das feinkörnige Belohnungsmodellierung nutzt, um die visuelle Verankerung von LVLMs im Vergleich zu vortrainierten Baselines signifikant zu verbessern. Diese Verbesserung wird effizient durch wesentlich kostengünstigere menschliche Bewertungen anstelle vollständiger Supervision sowie automatisierte Methoden erreicht. Wir zeigen die Wirksamkeit unseres Ansatzes durch zahlreiche Metriken auf mehreren Benchmarks. Zusätzlich erstellen wir einen umfassenden und anspruchsvollen Datensatz, der speziell zur Validierung der visuellen Verankerungsfähigkeiten von LVLMs entwickelt wurde. Schließlich planen wir, unsere menschliche Annotation, bestehend aus etwa 16.000 Bildern und generierten Textpaaren mit feinkörnigen Bewertungen, zu veröffentlichen, um damit einen Beitrag zur verwandten Forschung in der Community zu leisten.
English
By combining natural language understanding and the generation capabilities
and breadth of knowledge of large language models with image perception, recent
large vision language models (LVLMs) have shown unprecedented reasoning
capabilities in the real world. However, the generated text often suffers from
inaccurate grounding in the visual input, resulting in errors such as
hallucinating nonexistent scene elements, missing significant parts of the
scene, and inferring incorrect attributes and relationships between objects. To
address these issues, we introduce a novel framework, ViGoR (Visual Grounding
Through Fine-Grained Reward Modeling) that utilizes fine-grained reward
modeling to significantly enhance the visual grounding of LVLMs over
pre-trained baselines. This improvement is efficiently achieved using much
cheaper human evaluations instead of full supervisions, as well as automated
methods. We show the effectiveness of our approach through numerous metrics on
several benchmarks. Additionally, we construct a comprehensive and challenging
dataset specifically designed to validate the visual grounding capabilities of
LVLMs. Finally, we plan to release our human annotation comprising
approximately 16,000 images and generated text pairs with fine-grained
evaluations to contribute to related research in the community.