ChatPaper.aiChatPaper

Het Aha-moment Herbezien: Zijn VLMs Werkelijk in Staat tot Zelfverificatie bij Schaling tijdens Inferentie?

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

June 20, 2025
Auteurs: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben aangetoond dat inferentie-tijd rekentechnieken, zoals schalen tijdens decodering en zelfverfijning, de redeneervaardigheden aanzienlijk kunnen verbeteren zonder afhankelijk te zijn van externe kennis. Een belangrijke drijfveer van dit succes is het ontstaan van zelfcorrectie- en zelfverificatiegedrag, vaak uitgelokt door reinforcement learning (RL). In dit artikel onderzoeken we of deze inferentie-tijd technieken effectief kunnen worden uitgebreid naar visie-taalmodellen (VLMs), met name die getraind zijn met RL. We ontdekken dat hoewel decoderingsstrategieën zoals meerderheidsstemming en best-of-N selectie met zelfverificatie allemaal de redeneerprestaties van VLMs verbeteren, generatie-afhankelijke methoden zoals de eerste aanzienlijk hogere winsten behalen in vergelijking met verificatie-afhankelijke methoden zoals de laatste. Daarnaast leidt het zelfcorrectiegedrag dat vaak geassocieerd wordt met RL-getrainde modellen, zoals een aha-moment, niet tot meetbare verbeteringen. We tonen via uitgebreide experimenten binnen het inferentie-tijd schalingskader een belangrijke oorzaak aan: RL-getrainde VLMs missen nog steeds robuuste zelfverificatiecapaciteiten over zowel visuele als tekstuele modaliteiten.
English
Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.
PDF111July 1, 2025