ViGoR: Verbesserung der visuellen Verankerung großer visuell-sprachlicher Modelle durch feinkörnige Belohnungsmodellierung

papers.abstract

Durch die Kombination von natürlichem Sprachverständnis, den Generierungsfähigkeiten und der breiten Wissensbasis großer Sprachmodelle mit der Bildwahrnehmung haben aktuelle große visuell-sprachliche Modelle (LVLMs) beispiellose Fähigkeiten zur Schlussfolgerung in der realen Welt gezeigt. Allerdings leidet der generierte Text oft unter einer ungenauen Verankerung im visuellen Input, was zu Fehlern wie der Halluzination nicht vorhandener Szenelemente, dem Übersehen signifikanter Teile der Szene sowie der falschen Ableitung von Attributen und Beziehungen zwischen Objekten führt. Um diese Probleme zu adressieren, stellen wir ein neuartiges Framework vor, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), das feinkörnige Belohnungsmodellierung nutzt, um die visuelle Verankerung von LVLMs im Vergleich zu vortrainierten Baselines signifikant zu verbessern. Diese Verbesserung wird effizient durch wesentlich kostengünstigere menschliche Bewertungen anstelle vollständiger Supervision sowie automatisierte Methoden erreicht. Wir zeigen die Wirksamkeit unseres Ansatzes durch zahlreiche Metriken auf mehreren Benchmarks. Zusätzlich erstellen wir einen umfassenden und anspruchsvollen Datensatz, der speziell zur Validierung der visuellen Verankerungsfähigkeiten von LVLMs entwickelt wurde. Schließlich planen wir, unsere menschliche Annotation, bestehend aus etwa 16.000 Bildern und generierten Textpaaren mit feinkörnigen Bewertungen, zu veröffentlichen, um damit einen Beitrag zur verwandten Forschung in der Community zu leisten.

English

By combining natural language understanding and the generation capabilities and breadth of knowledge of large language models with image perception, recent large vision language models (LVLMs) have shown unprecedented reasoning capabilities in the real world. However, the generated text often suffers from inaccurate grounding in the visual input, resulting in errors such as hallucinating nonexistent scene elements, missing significant parts of the scene, and inferring incorrect attributes and relationships between objects. To address these issues, we introduce a novel framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling) that utilizes fine-grained reward modeling to significantly enhance the visual grounding of LVLMs over pre-trained baselines. This improvement is efficiently achieved using much cheaper human evaluations instead of full supervisions, as well as automated methods. We show the effectiveness of our approach through numerous metrics on several benchmarks. Additionally, we construct a comprehensive and challenging dataset specifically designed to validate the visual grounding capabilities of LVLMs. Finally, we plan to release our human annotation comprising approximately 16,000 images and generated text pairs with fine-grained evaluations to contribute to related research in the community.

ViGoR: Verbesserung der visuellen Verankerung großer visuell-sprachlicher Modelle durch feinkörnige Belohnungsmodellierung

ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

papers.abstract

Support