Het Aha-moment Herbezien: Zijn VLMs Werkelijk in Staat tot Zelfverificatie bij Schaling tijdens Inferentie?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
June 20, 2025
Auteurs: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben aangetoond dat
inferentie-tijd rekentechnieken, zoals schalen tijdens decodering en
zelfverfijning, de redeneervaardigheden aanzienlijk kunnen verbeteren zonder
afhankelijk te zijn van externe kennis. Een belangrijke drijfveer van dit
succes is het ontstaan van zelfcorrectie- en zelfverificatiegedrag, vaak
uitgelokt door reinforcement learning (RL). In dit artikel onderzoeken we of
deze inferentie-tijd technieken effectief kunnen worden uitgebreid naar
visie-taalmodellen (VLMs), met name die getraind zijn met RL. We ontdekken dat
hoewel decoderingsstrategieën zoals meerderheidsstemming en best-of-N selectie
met zelfverificatie allemaal de redeneerprestaties van VLMs verbeteren,
generatie-afhankelijke methoden zoals de eerste aanzienlijk hogere winsten
behalen in vergelijking met verificatie-afhankelijke methoden zoals de laatste.
Daarnaast leidt het zelfcorrectiegedrag dat vaak geassocieerd wordt met
RL-getrainde modellen, zoals een aha-moment, niet tot meetbare verbeteringen.
We tonen via uitgebreide experimenten binnen het inferentie-tijd schalingskader
een belangrijke oorzaak aan: RL-getrainde VLMs missen nog steeds robuuste
zelfverificatiecapaciteiten over zowel visuele als tekstuele modaliteiten.
English
Recent advances in large language models (LLMs) have demonstrated that
inference-time computation techniques, such as decoding-time scaling and
self-refinement, can significantly enhance reasoning capabilities without
relying on external knowledge. A key driver of this success is the emergence of
self-correction and self-verification behaviors, often elicited through
reinforcement learning (RL). In this paper, we investigate whether these
inference-time techniques extend effectively to vision-language models (VLMs),
particularly those trained with RL. We find that while decoding strategies such
as majority voting and best-of-N selection with self-verification all improve
VLM reasoning performance, generation-reliant methods such as the former
achieve significantly higher gains versus verification-reliant methods such as
the latter. Additionally, the self-correction behavior often associated with
RL-tuned models, such as aha moment, does not lead to measurable gains. We show
via extensive experimentation within the inference-time scaling framework to
identify a key root cause: RL-trained VLMs still lack robust self-verification
capabilities across both visual and textual modalities.