ChatPaper.aiChatPaper

Momento "¡Ajá!" Revisitado: ¿Son los Modelos de Lenguaje Visual Realmente Capaces de Autoverificación en la Escalabilidad Durante la Inferencia?

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

June 20, 2025
Autores: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs) han demostrado que las técnicas de computación en tiempo de inferencia, como el escalado en tiempo de decodificación y la autorrefinación, pueden mejorar significativamente las capacidades de razonamiento sin depender de conocimiento externo. Un factor clave de este éxito es la aparición de comportamientos de autocorrección y autoverificación, a menudo inducidos mediante aprendizaje por refuerzo (RL). En este artículo, investigamos si estas técnicas en tiempo de inferencia se extienden eficazmente a los modelos de visión y lenguaje (VLMs), particularmente aquellos entrenados con RL. Descubrimos que, aunque estrategias de decodificación como la votación por mayoría y la selección del mejor de N con autoverificación mejoran el rendimiento de razonamiento de los VLMs, los métodos basados en generación, como el primero, logran ganancias significativamente mayores en comparación con los métodos basados en verificación, como el segundo. Además, el comportamiento de autocorrección frecuentemente asociado con modelos ajustados con RL, como el momento "aha", no conduce a mejoras medibles. Mediante una extensa experimentación dentro del marco de escalado en tiempo de inferencia, identificamos una causa fundamental clave: los VLMs entrenados con RL aún carecen de capacidades robustas de autoverificación en ambas modalidades, visual y textual.
English
Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.
PDF91July 1, 2025