ChatPaper.aiChatPaper

Что улучшает обучение с подкреплением в визуальном анализе? Франкенштейновский анализ

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

February 12, 2026
Авторы: Xirui Li, Ming Li, Tianyi Zhou
cs.AI

Аннотация

Подкрепляемое обучение (ПО) с верифицируемыми вознаграждениями стало стандартным этапом пост-обучения для улучшения зрительного мышления в визуально-языковых моделях, однако остаётся неясным, какие именно способности улучшает ПО по сравнению с контролируемой тонкой настройкой в качестве холодной инициализации. Улучшения в сквозных бенчмарках объединяют множество факторов, что затрудняет attribution улучшений конкретным навыкам. Чтобы устранить этот разрыв, мы предлагаем Франкенштейн-подход к анализу, включающий: (i) функциональную локализацию через каузальный probing; (ii) характеристику обновлений через сравнение параметров; и (iii) тест на переносимость через слияние моделей. Вместо этого ПО индуцирует последовательное смещение на этапе вывода преимущественно в средних и поздних слоях, и эти доработки средних и поздних слоев являются как переносимыми (через слияние), так и необходимыми (через заморозку) для достижений ПО. В целом, наши результаты позволяют предположить, что надёжный вклад ПО в зрительное мышление заключается не в равномерном улучшении визуального восприятия, а в систематической доработке вычислений в средних и поздних слоях трансформера, что улучшает согласованность между зрением и логическим выводом и результативность мышления, подчеркивая ограничения оценок, основанных исключительно на бенчмарках, для понимания улучшений в мультимодальном мышлении.
English
Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.
PDF133February 17, 2026