Skalierung der Inferenzzeit-Suche mit Vision-Value-Modell zur Verbesserung der visuellen Erfassungsfähigkeit.
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Autoren: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Zusammenfassung
Trotz bedeutender Fortschritte bei Modellen für Bildsprache (VLMs) fehlen effektive Ansätze zur Verbesserung der Antwortqualität durch Skalierung der Berechnung zur Inferenzzeit. Diese Fähigkeit gilt als entscheidender Schritt hin zu selbstverbessernden Modellen in jüngsten Studien großer Sprachmodelle. In diesem Artikel präsentieren wir das Vision Value Model (VisVM), das die Suche zur Inferenzzeit von VLMs anleiten kann, um Antworten mit besserem visuellen Verständnis zu generieren. Speziell bewertet VisVM nicht nur die Qualität des generierten Satzes im aktuellen Suchschritt, sondern antizipiert auch die Qualität nachfolgender Sätze, die aus dem aktuellen Schritt resultieren können, und bietet somit einen langfristigen Wert. Auf diese Weise lenkt VisVM VLMs davon ab, Sätze zu generieren, die anfällig für Halluzinationen oder unzureichende Details sind, und erzeugt somit qualitativ hochwertigere Antworten. Experimentelle Ergebnisse zeigen, dass die von VisVM geleitete Suche die Fähigkeit von VLMs, beschreibende Bildunterschriften mit reichhaltigeren visuellen Details und weniger Halluzinationen zu generieren, signifikant verbessert im Vergleich zu gieriger Dekodierung und Suchmethoden mit anderen visuellen Belohnungssignalen. Darüber hinaus stellen wir fest, dass das Selbsttraining des Modells mit den von VisVM geleiteten Bildunterschriften die Leistung von VLMs über eine breite Palette multimodaler Benchmarks verbessert, was auf das Potenzial zur Entwicklung selbstverbessernder VLMs hinweist. Unser Wertmodell und der Code sind verfügbar unter https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.Summary
AI-Generated Summary