ChatPaper.aiChatPaper

Aha-Moment neu betrachtet: Sind VLMs wirklich in der Lage zur Selbstüberprüfung beim Skalieren zur Inferenzzeit?

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

June 20, 2025
Autoren: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben gezeigt, dass Inferenzzeit-Berechnungstechniken wie Decoding-Time-Scaling und Selbstverfeinerung die Fähigkeiten zur logischen Schlussfolgerung erheblich verbessern können, ohne auf externes Wissen angewiesen zu sein. Ein entscheidender Treiber dieses Erfolgs ist das Auftreten von Selbstkorrektur- und Selbstverifikationsverhalten, das häufig durch Reinforcement Learning (RL) ausgelöst wird. In diesem Artikel untersuchen wir, ob sich diese Inferenzzeit-Techniken effektiv auf Vision-Language-Modelle (VLMs) übertragen lassen, insbesondere auf solche, die mit RL trainiert wurden. Wir stellen fest, dass Decoding-Strategien wie Mehrheitsabstimmung und Best-of-N-Auswahl mit Selbstverifikation zwar die logische Leistung von VLMs verbessern, generierungsabhängige Methoden wie erstere jedoch deutlich höhere Gewinne erzielen als verifikationsabhängige Methoden wie letztere. Darüber hinaus führt das mit RL-optimierten Modellen oft verbundene Selbstkorrekturverhalten, wie beispielsweise der „Aha-Moment“, zu keinen messbaren Verbesserungen. Wir zeigen durch umfangreiche Experimente im Rahmen des Inferenzzeit-Scaling, dass eine wesentliche Ursache darin liegt, dass RL-trainierte VLMs noch immer keine robusten Selbstverifikationsfähigkeiten in beiden Modalitäten, visuell und textuell, besitzen.
English
Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.
PDF91July 1, 2025