Переосмысление "Момента озарения": Способны ли модели визуального языка к самопроверке при масштабировании во время вывода?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
June 20, 2025
Авторы: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) показали, что методы вычислений на этапе вывода, такие как масштабирование на этапе декодирования и самоусовершенствование, могут значительно улучшить способности к рассуждению без использования внешних знаний. Ключевым фактором этого успеха стало появление поведения, связанного с самокоррекцией и самопроверкой, которое часто вызывается с помощью обучения с подкреплением (RL). В данной статье мы исследуем, насколько эффективно эти методы на этапе вывода применимы к моделям, работающим с визуальными и языковыми данными (VLM), особенно к тем, которые обучены с использованием RL. Мы обнаружили, что хотя стратегии декодирования, такие как голосование большинством и выбор лучшего из N с самопроверкой, улучшают производительность VLM в задачах рассуждения, методы, основанные на генерации, такие как первый из упомянутых, достигают значительно больших успехов по сравнению с методами, основанными на проверке, такими как второй. Кроме того, поведение самокоррекции, часто связанное с моделями, настроенными с помощью RL, например, "момент озарения", не приводит к измеримым улучшениям. Мы показываем с помощью обширных экспериментов в рамках подхода масштабирования на этапе вывода, что ключевой причиной является отсутствие у VLM, обученных с RL, надежных возможностей самопроверки как в визуальной, так и в текстовой модальностях.
English
Recent advances in large language models (LLMs) have demonstrated that
inference-time computation techniques, such as decoding-time scaling and
self-refinement, can significantly enhance reasoning capabilities without
relying on external knowledge. A key driver of this success is the emergence of
self-correction and self-verification behaviors, often elicited through
reinforcement learning (RL). In this paper, we investigate whether these
inference-time techniques extend effectively to vision-language models (VLMs),
particularly those trained with RL. We find that while decoding strategies such
as majority voting and best-of-N selection with self-verification all improve
VLM reasoning performance, generation-reliant methods such as the former
achieve significantly higher gains versus verification-reliant methods such as
the latter. Additionally, the self-correction behavior often associated with
RL-tuned models, such as aha moment, does not lead to measurable gains. We show
via extensive experimentation within the inference-time scaling framework to
identify a key root cause: RL-trained VLMs still lack robust self-verification
capabilities across both visual and textual modalities.