Mise à l'échelle de la recherche en temps d'inférence avec un modèle de valeur de vision pour une meilleure compréhension visuelle
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Auteurs: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Résumé
Malgré les avancées significatives dans les modèles vision-langage (VLM), il existe un manque d'approches efficaces pour améliorer la qualité des réponses en augmentant le calcul au moment de l'inférence. Cette capacité est reconnue comme une étape clé vers les modèles auto-améliorants dans les récentes études sur les grands modèles de langage. Dans cet article, nous présentons le Modèle de Valeur Visuelle (VisVM) qui peut guider la recherche au moment de l'inférence des VLM pour générer des réponses avec une meilleure compréhension visuelle. Plus précisément, VisVM évalue non seulement la qualité de la phrase générée à l'étape de recherche actuelle, mais anticipe également la qualité des phrases suivantes qui pourraient résulter de l'étape actuelle, offrant ainsi une valeur à long terme. De cette manière, VisVM guide les VLM pour éviter de générer des phrases sujettes à des hallucinations ou à un manque de détails, produisant ainsi des réponses de meilleure qualité. Les résultats expérimentaux démontrent que la recherche guidée par VisVM améliore significativement la capacité des VLM à générer des légendes descriptives avec des détails visuels plus riches et moins d'hallucinations, par rapport au décodage glouton et aux méthodes de recherche avec d'autres signaux de récompense visuelle. De plus, nous constatons que l'auto-entraînement du modèle avec les légendes guidées par VisVM améliore les performances des VLM sur un large éventail de benchmarks multimodaux, indiquant le potentiel de développement de VLM auto-améliorants. Notre modèle de valeur et le code sont disponibles sur https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.Summary
AI-Generated Summary