Масштабирование поиска во время вывода с моделью видения значимости для улучшенного визуального понимания
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Авторы: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Аннотация
Несмотря на значительные достижения в моделях видео-языкового взаимодействия (VLM), отсутствуют эффективные подходы к улучшению качества ответов путем масштабирования вычислений во время вывода. Эта способность считается ключевым шагом к самоулучшающимся моделям в недавних исследованиях больших языковых моделей. В данной статье мы представляем модель видео-значений (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. Конкретно, VisVM не только оценивает качество сгенерированного предложения на текущем этапе поиска, но и предвидит качество последующих предложений, которые могут возникнуть на основе текущего этапа, обеспечивая долгосрочную ценность. Таким образом, VisVM направляет VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск под управлением VisVM значительно улучшает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций, по сравнению с жадным декодированием и методами поиска с другими визуальными сигналами вознаграждения. Более того, мы обнаружили, что самообучение модели с подписями, направляемыми VisVM, улучшает производительность VLM на широком спектре мультимодальных бенчмарков, указывая на потенциал развития самоулучшающихся VLM. Наша модель значений и код доступны по ссылке https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.Summary
AI-Generated Summary