Escalando la Búsqueda en Tiempo de Inferencia con un Modelo de Valor de Visión para Mejorar la Comprensión Visual
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Autores: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Resumen
A pesar de los avances significativos en los modelos visión-lenguaje (VLMs), aún faltan enfoques efectivos para mejorar la calidad de respuesta escalando la computación en tiempo de inferencia. Esta capacidad se reconoce como un paso fundamental hacia los modelos auto-mejorantes en los recientes estudios de grandes modelos de lenguaje. En este artículo, presentamos el Modelo de Valor de Visión (VisVM) que puede guiar la búsqueda en tiempo de inferencia de VLM para generar respuestas con una mejor comprensión visual. Específicamente, VisVM no solo evalúa la calidad de la oración generada en el paso de búsqueda actual, sino que también anticipa la calidad de las oraciones subsecuentes que pueden resultar de dicho paso, proporcionando así un valor a largo plazo. De esta manera, VisVM dirige a los VLMs lejos de generar oraciones propensas a alucinaciones o con detalles insuficientes, produciendo así respuestas de mayor calidad. Los resultados experimentales demuestran que la búsqueda guiada por VisVM mejora significativamente la capacidad de los VLMs para generar subtítulos descriptivos con detalles visuales más ricos y menos alucinaciones, en comparación con la decodificación codiciosa y los métodos de búsqueda con otras señales de recompensa visual. Además, encontramos que el auto-entrenamiento del modelo con los subtítulos guiados por VisVM mejora el rendimiento de los VLMs en una amplia gama de benchmarks multimodales, lo que indica el potencial para desarrollar VLMs auto-mejorantes. Nuestro modelo de valor y código están disponibles en https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.Summary
AI-Generated Summary