ChatPaper.aiChatPaper

視覚的推論においてRLは何を改善するのか?フランケンシュタイン方式による分析

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

February 12, 2026
著者: Xirui Li, Ming Li, Tianyi Zhou
cs.AI

要旨

検証可能な報酬を用いた強化学習(RL)は、視覚言語モデルの視覚的推論能力を高める標準的な学習後段階となっているが、教師ありファインチューニングによるコールドスタート初期化(IN)と比較して、RLが実際にどのような能力を改善するかは不明なままである。エンドツーエンドのベンチマーク向上は複数の要因が混在するため、改善を特定のスキルに帰属させることが困難である。この隔たりを埋めるため、我々はフランケンシュタイン風の分析フレームワークを提案する:(i)因果的プロービングによる機能局在、(ii)パラメータ比較による更新特性評価、(iii)モデルマージによる転移可能性テスト。その結果、RLは主に中後期層において一貫した推論時シフトを誘導し、これらの中期~後期の改良がRLによる向上に対して転移可能(マージによる)かつ必要不可欠(凍結による)であることがわかった。全体として、視覚的推論におけるRLの確かな貢献は、視覚認識の均一な強化ではなく、視覚から推論への整合性と推論性能を改善する中期~後期トランスフォーマー計算の体系的な洗練であることを示唆しており、マルチモーダル推論の改善を理解する上でベンチマークのみに依存した評価の限界を浮き彫りにしている。
English
Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.
PDF133February 17, 2026