Opschalen van zoekopdrachten op inferentietijd met Vision Value Model voor verbeterde visuele begrip
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Auteurs: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in visie-taalmodellen (VLM's), ontbreken effectieve benaderingen om de kwaliteit van de respons te verbeteren door schaalvergroting van de inferentietijd berekening. Deze mogelijkheid wordt beschouwd als een kernstap naar zelfverbeterende modellen in recente studies naar grote taalmodellen. In dit artikel presenteren we het Vision Value Model (VisVM) dat VLM-inferentietijdzoekopdrachten kan begeleiden om reacties te genereren met een beter visueel begrip. Specifiek evalueert VisVM niet alleen de kwaliteit van de gegenereerde zin in de huidige zoekstap, maar anticipeert ook op de kwaliteit van de daaropvolgende zinnen die kunnen voortvloeien uit de huidige stap, en biedt zo een langetermijnwaarde. Op deze manier stuurt VisVM VLM's weg van het genereren van zinnen die vatbaar zijn voor hallucinaties of onvoldoende details, waardoor er reacties van hogere kwaliteit worden geproduceerd. Experimentele resultaten tonen aan dat door VisVM geleide zoekopdrachten aanzienlijk de mogelijkheid van VLM's verbeteren om beschrijvende bijschriften te genereren met rijkere visuele details en minder hallucinaties, in vergelijking met gretige decodering en zoekmethoden met andere visuele beloningssignalen. Bovendien blijkt dat het zelf trainen van het model met de door VisVM geleide bijschriften de prestaties van VLM's verbetert over een breed scala van multimodale benchmarks, wat wijst op het potentieel voor het ontwikkelen van zelfverbeterende VLM's. Ons waarde model en code zijn beschikbaar op https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.