Momento Aha Revisitado: Os VLMs São Realmente Capazes de Autoverificação na Escalonamento em Tempo de Inferência?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
June 20, 2025
Autores: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram que técnicas de computação em tempo de inferência, como escalonamento no momento de decodificação e autorrefinamento, podem aprimorar significativamente as capacidades de raciocínio sem depender de conhecimento externo. Um fator-chave desse sucesso é o surgimento de comportamentos de autocorreção e autoverificação, frequentemente induzidos por meio de aprendizado por reforço (RL). Neste artigo, investigamos se essas técnicas em tempo de inferência se estendem de forma eficaz a modelos de visão e linguagem (VLMs), particularmente aqueles treinados com RL. Descobrimos que, embora estratégias de decodificação como votação majoritária e seleção do melhor entre N com autoverificação melhorem o desempenho de raciocínio dos VLMs, métodos dependentes de geração, como o primeiro, alcançam ganhos significativamente maiores em comparação com métodos dependentes de verificação, como o último. Além disso, o comportamento de autocorreção frequentemente associado a modelos ajustados com RL, como o "momento de insight", não resulta em ganhos mensuráveis. Mostramos, por meio de experimentação extensiva dentro do framework de escalonamento em tempo de inferência, uma causa raiz fundamental: VLMs treinados com RL ainda carecem de capacidades robustas de autoverificação em ambas as modalidades, visual e textual.
English
Recent advances in large language models (LLMs) have demonstrated that
inference-time computation techniques, such as decoding-time scaling and
self-refinement, can significantly enhance reasoning capabilities without
relying on external knowledge. A key driver of this success is the emergence of
self-correction and self-verification behaviors, often elicited through
reinforcement learning (RL). In this paper, we investigate whether these
inference-time techniques extend effectively to vision-language models (VLMs),
particularly those trained with RL. We find that while decoding strategies such
as majority voting and best-of-N selection with self-verification all improve
VLM reasoning performance, generation-reliant methods such as the former
achieve significantly higher gains versus verification-reliant methods such as
the latter. Additionally, the self-correction behavior often associated with
RL-tuned models, such as aha moment, does not lead to measurable gains. We show
via extensive experimentation within the inference-time scaling framework to
identify a key root cause: RL-trained VLMs still lack robust self-verification
capabilities across both visual and textual modalities.