Aha-Moment neu betrachtet: Sind VLMs wirklich in der Lage zur Selbstüberprüfung beim Skalieren zur Inferenzzeit?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
June 20, 2025
Autoren: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben gezeigt, dass Inferenzzeit-Berechnungstechniken wie Decoding-Time-Scaling und Selbstverfeinerung die Fähigkeiten zur logischen Schlussfolgerung erheblich verbessern können, ohne auf externes Wissen angewiesen zu sein. Ein entscheidender Treiber dieses Erfolgs ist das Auftreten von Selbstkorrektur- und Selbstverifikationsverhalten, das häufig durch Reinforcement Learning (RL) ausgelöst wird. In diesem Artikel untersuchen wir, ob sich diese Inferenzzeit-Techniken effektiv auf Vision-Language-Modelle (VLMs) übertragen lassen, insbesondere auf solche, die mit RL trainiert wurden. Wir stellen fest, dass Decoding-Strategien wie Mehrheitsabstimmung und Best-of-N-Auswahl mit Selbstverifikation zwar die logische Leistung von VLMs verbessern, generierungsabhängige Methoden wie erstere jedoch deutlich höhere Gewinne erzielen als verifikationsabhängige Methoden wie letztere. Darüber hinaus führt das mit RL-optimierten Modellen oft verbundene Selbstkorrekturverhalten, wie beispielsweise der „Aha-Moment“, zu keinen messbaren Verbesserungen. Wir zeigen durch umfangreiche Experimente im Rahmen des Inferenzzeit-Scaling, dass eine wesentliche Ursache darin liegt, dass RL-trainierte VLMs noch immer keine robusten Selbstverifikationsfähigkeiten in beiden Modalitäten, visuell und textuell, besitzen.
English
Recent advances in large language models (LLMs) have demonstrated that
inference-time computation techniques, such as decoding-time scaling and
self-refinement, can significantly enhance reasoning capabilities without
relying on external knowledge. A key driver of this success is the emergence of
self-correction and self-verification behaviors, often elicited through
reinforcement learning (RL). In this paper, we investigate whether these
inference-time techniques extend effectively to vision-language models (VLMs),
particularly those trained with RL. We find that while decoding strategies such
as majority voting and best-of-N selection with self-verification all improve
VLM reasoning performance, generation-reliant methods such as the former
achieve significantly higher gains versus verification-reliant methods such as
the latter. Additionally, the self-correction behavior often associated with
RL-tuned models, such as aha moment, does not lead to measurable gains. We show
via extensive experimentation within the inference-time scaling framework to
identify a key root cause: RL-trained VLMs still lack robust self-verification
capabilities across both visual and textual modalities.