ChatPaper.aiChatPaper

Was verbessert RL für visuelle Reasoning-Aufgaben? Eine Frankenstein-artige Analyse

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

February 12, 2026
papers.authors: Xirui Li, Ming Li, Tianyi Zhou
cs.AI

papers.abstract

Verstärkendes Lernen (RL) mit verifizierbaren Belohnungen ist zu einer standardmäßigen Nachtrainingsphase geworden, um das visuelle Reasoning in Vision-Language-Modellen zu verbessern. Dennoch bleibt unklar, welche Fähigkeiten RL tatsächlich im Vergleich zur überwachten Feinabstimmung als Cold-Start-Initialisierung (IN) verbessert. End-to-End-Benchmark-Verbesserungen vereinen mehrere Faktoren, was es schwierig macht, Fortschritte auf spezifische Fertigkeiten zurückzuführen. Um diese Lücke zu schließen, schlagen wir einen Frankenstein-artigen Analyseframework vor, der umfasst: (i) funktionale Lokalisierung durch kausales Probing; (ii) Update-Charakterisierung durch Parametervergleich; und (iii) Übertragbarkeitstests durch Modellzusammenführung. Stattdessen induziert RL eine konsistente Inferenzzeit-Verschiebung hauptsächlich in mittleren bis späten Schichten, und diese Verfeinerungen in mittleren bis späten Schichten sind sowohl übertragbar (durch Zusammenführung) als auch notwendig (durch Einfrieren) für RL-Gewinne. Insgesamt deuten unsere Ergebnisse darauf hin, dass der zuverlässige Beitrag von RL beim visuellen Reasoning keine gleichmäßige Verbesserung der visuellen Wahrnehmung ist, sondern eine systematische Verfeinerung der Transformer-Berechnung in mittleren bis späten Schichten, die die Ausrichtung von Vision auf Reasoning und die Reasoning-Leistung verbessert. Dies unterstreicht die Grenzen einer reinen Benchmark-Bewertung für das Verständnis von multimodalen Reasoning-Verbesserungen.
English
Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.
PDF133February 17, 2026