Momento "Aha" Rivisitato: I Modelli Linguistici Visivi Sono Veramente in Grado di Auto-Verificarsi nel Ridimensionamento al Momento dell'Inferenza?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
June 20, 2025
Autori: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato che le tecniche di calcolo in fase di inferenza, come lo scaling al momento del decoding e l'auto-affinamento, possono migliorare significativamente le capacità di ragionamento senza fare affidamento su conoscenze esterne. Un fattore chiave di questo successo è l'emergere di comportamenti di auto-correzione e auto-verifica, spesso stimolati attraverso l'apprendimento per rinforzo (RL). In questo articolo, indaghiamo se queste tecniche in fase di inferenza si estendano efficacemente ai modelli visione-linguaggio (VLM), in particolare a quelli addestrati con RL. Scopriamo che, sebbene strategie di decoding come il voto a maggioranza e la selezione best-of-N con auto-verifica migliorino tutte le prestazioni di ragionamento dei VLM, i metodi basati sulla generazione, come il primo, ottengono guadagni significativamente maggiori rispetto ai metodi basati sulla verifica, come il secondo. Inoltre, il comportamento di auto-correzione spesso associato ai modelli ottimizzati con RL, come il momento "aha", non porta a miglioramenti misurabili. Mostriamo, attraverso un'ampia sperimentazione all'interno del framework di scaling in fase di inferenza, una causa principale: i VLM addestrati con RL mancano ancora di capacità robuste di auto-verifica sia nelle modalità visive che testuali.
English
Recent advances in large language models (LLMs) have demonstrated that
inference-time computation techniques, such as decoding-time scaling and
self-refinement, can significantly enhance reasoning capabilities without
relying on external knowledge. A key driver of this success is the emergence of
self-correction and self-verification behaviors, often elicited through
reinforcement learning (RL). In this paper, we investigate whether these
inference-time techniques extend effectively to vision-language models (VLMs),
particularly those trained with RL. We find that while decoding strategies such
as majority voting and best-of-N selection with self-verification all improve
VLM reasoning performance, generation-reliant methods such as the former
achieve significantly higher gains versus verification-reliant methods such as
the latter. Additionally, the self-correction behavior often associated with
RL-tuned models, such as aha moment, does not lead to measurable gains. We show
via extensive experimentation within the inference-time scaling framework to
identify a key root cause: RL-trained VLMs still lack robust self-verification
capabilities across both visual and textual modalities.