Momento "¡Ajá!" Revisitado: ¿Son los Modelos de Lenguaje Visual Realmente Capaces de Autoverificación en la Escalabilidad Durante la Inferencia?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
June 20, 2025
Autores: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) han demostrado que las técnicas de computación en tiempo de inferencia, como el escalado en tiempo de decodificación y la autorrefinación, pueden mejorar significativamente las capacidades de razonamiento sin depender de conocimiento externo. Un factor clave de este éxito es la aparición de comportamientos de autocorrección y autoverificación, a menudo inducidos mediante aprendizaje por refuerzo (RL). En este artículo, investigamos si estas técnicas en tiempo de inferencia se extienden eficazmente a los modelos de visión y lenguaje (VLMs), particularmente aquellos entrenados con RL. Descubrimos que, aunque estrategias de decodificación como la votación por mayoría y la selección del mejor de N con autoverificación mejoran el rendimiento de razonamiento de los VLMs, los métodos basados en generación, como el primero, logran ganancias significativamente mayores en comparación con los métodos basados en verificación, como el segundo. Además, el comportamiento de autocorrección frecuentemente asociado con modelos ajustados con RL, como el momento "aha", no conduce a mejoras medibles. Mediante una extensa experimentación dentro del marco de escalado en tiempo de inferencia, identificamos una causa fundamental clave: los VLMs entrenados con RL aún carecen de capacidades robustas de autoverificación en ambas modalidades, visual y textual.
English
Recent advances in large language models (LLMs) have demonstrated that
inference-time computation techniques, such as decoding-time scaling and
self-refinement, can significantly enhance reasoning capabilities without
relying on external knowledge. A key driver of this success is the emergence of
self-correction and self-verification behaviors, often elicited through
reinforcement learning (RL). In this paper, we investigate whether these
inference-time techniques extend effectively to vision-language models (VLMs),
particularly those trained with RL. We find that while decoding strategies such
as majority voting and best-of-N selection with self-verification all improve
VLM reasoning performance, generation-reliant methods such as the former
achieve significantly higher gains versus verification-reliant methods such as
the latter. Additionally, the self-correction behavior often associated with
RL-tuned models, such as aha moment, does not lead to measurable gains. We show
via extensive experimentation within the inference-time scaling framework to
identify a key root cause: RL-trained VLMs still lack robust self-verification
capabilities across both visual and textual modalities.