Escalonando a Busca em Tempo de Inferência com Modelo de Valor de Visão para Melhorar a Compreensão Visual
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Autores: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Resumo
Apesar dos avanços significativos em modelos de visão-linguagem (VLMs), ainda faltam abordagens eficazes para melhorar a qualidade das respostas ao escalar a computação no tempo de inferência. Essa capacidade é conhecida por ser um passo fundamental em direção aos modelos autoaperfeiçoáveis em estudos recentes de grandes modelos de linguagem. Neste artigo, apresentamos o Modelo de Valor de Visão (VisVM) que pode orientar a busca em tempo de inferência do VLM para gerar respostas com melhor compreensão visual. Especificamente, o VisVM não apenas avalia a qualidade da frase gerada na etapa de busca atual, mas também antecipa a qualidade das frases subsequentes que podem resultar da etapa atual, fornecendo assim um valor a longo prazo. Dessa forma, o VisVM direciona os VLMs para longe da geração de frases propensas a alucinações ou com detalhes insuficientes, produzindo assim respostas de maior qualidade. Resultados experimentais demonstram que a busca orientada pelo VisVM melhora significativamente a capacidade dos VLMs de gerar legendas descritivas com detalhes visuais mais ricos e menos alucinações, em comparação com a decodificação gananciosa e métodos de busca com outros sinais de recompensa visual. Além disso, descobrimos que o autotreinamento do modelo com as legendas orientadas pelo VisVM melhora o desempenho do VLM em uma ampla gama de benchmarks multimodais, indicando o potencial para o desenvolvimento de VLMs autoaperfeiçoáveis. Nosso modelo de valor e código estão disponíveis em https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.Summary
AI-Generated Summary