Momento "Aha" Rivisitato: I Modelli Linguistici Visivi Sono Veramente in Grado di Auto-Verificarsi nel Ridimensionamento al Momento dell'Inferenza?

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato che le tecniche di calcolo in fase di inferenza, come lo scaling al momento del decoding e l'auto-affinamento, possono migliorare significativamente le capacità di ragionamento senza fare affidamento su conoscenze esterne. Un fattore chiave di questo successo è l'emergere di comportamenti di auto-correzione e auto-verifica, spesso stimolati attraverso l'apprendimento per rinforzo (RL). In questo articolo, indaghiamo se queste tecniche in fase di inferenza si estendano efficacemente ai modelli visione-linguaggio (VLM), in particolare a quelli addestrati con RL. Scopriamo che, sebbene strategie di decoding come il voto a maggioranza e la selezione best-of-N con auto-verifica migliorino tutte le prestazioni di ragionamento dei VLM, i metodi basati sulla generazione, come il primo, ottengono guadagni significativamente maggiori rispetto ai metodi basati sulla verifica, come il secondo. Inoltre, il comportamento di auto-correzione spesso associato ai modelli ottimizzati con RL, come il momento "aha", non porta a miglioramenti misurabili. Mostriamo, attraverso un'ampia sperimentazione all'interno del framework di scaling in fase di inferenza, una causa principale: i VLM addestrati con RL mancano ancora di capacità robuste di auto-verifica sia nelle modalità visive che testuali.

English

Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.

Momento "Aha" Rivisitato: I Modelli Linguistici Visivi Sono Veramente in Grado di Auto-Verificarsi nel Ridimensionamento al Momento dell'Inferenza?

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

Abstract

Support