En quoi l'apprentissage par renforcement améliore-t-il le raisonnement visuel ? Une analyse à la Frankenstein
What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis
February 12, 2026
papers.authors: Xirui Li, Ming Li, Tianyi Zhou
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) avec récompenses vérifiables est devenu une étape standard de post-entraînement pour améliorer le raisonnement visuel dans les modèles vision-langage. Pourtant, il reste difficile de déterminer quelles capacités le RL améliore réellement par rapport au fine-tuning supervisé utilisé comme initialisation à froid (IN). Les gains obtenus sur les benchmarks de bout en bout amalgament de multiples facteurs, rendant complexe l'attribution des améliorations à des compétences spécifiques. Pour combler cette lacune, nous proposons un cadre d'analyse de type Frankenstein incluant : (i) la localisation fonctionnelle par sondage causal ; (ii) la caractérisation des mises à jour par comparaison des paramètres ; et (iii) le test de transférabilité par fusion de modèles. Au contraire, le RL induit un décalage cohérent au moment de l'inférence principalement dans les couches intermédiaires à tardives, et ces affinages intermédiaires-tardifs sont à la fois transférables (par fusion) et nécessaires (par gel) pour les gains du RL. Globalement, nos résultats suggèrent que la contribution fiable du RL dans le raisonnement visuel n'est pas une amélioration uniforme de la perception visuelle, mais un affinage systématique du calcul dans les couches intermédiaires et tardives des transformeurs, qui améliore l'alignement vision-raisonnement et les performances de raisonnement, soulignant ainsi les limites d'une évaluation basée uniquement sur les benchmarks pour comprendre les améliorations du raisonnement multimodal.
English
Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.