Momento Aha Revisitado: Os VLMs São Realmente Capazes de Autoverificação na Escalonamento em Tempo de Inferência?

Resumo

Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram que técnicas de computação em tempo de inferência, como escalonamento no momento de decodificação e autorrefinamento, podem aprimorar significativamente as capacidades de raciocínio sem depender de conhecimento externo. Um fator-chave desse sucesso é o surgimento de comportamentos de autocorreção e autoverificação, frequentemente induzidos por meio de aprendizado por reforço (RL). Neste artigo, investigamos se essas técnicas em tempo de inferência se estendem de forma eficaz a modelos de visão e linguagem (VLMs), particularmente aqueles treinados com RL. Descobrimos que, embora estratégias de decodificação como votação majoritária e seleção do melhor entre N com autoverificação melhorem o desempenho de raciocínio dos VLMs, métodos dependentes de geração, como o primeiro, alcançam ganhos significativamente maiores em comparação com métodos dependentes de verificação, como o último. Além disso, o comportamento de autocorreção frequentemente associado a modelos ajustados com RL, como o "momento de insight", não resulta em ganhos mensuráveis. Mostramos, por meio de experimentação extensiva dentro do framework de escalonamento em tempo de inferência, uma causa raiz fundamental: VLMs treinados com RL ainda carecem de capacidades robustas de autoverificação em ambas as modalidades, visual e textual.

English

Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.

Momento Aha Revisitado: Os VLMs São Realmente Capazes de Autoverificação na Escalonamento em Tempo de Inferência?

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

Resumo

Support