Cosa migliora l'RL nel Ragionamento Visivo? Un'analisi in stile Frankenstein

Abstract

L'apprendimento per rinforzo (RL) con ricompense verificabili è diventato una fase standard di post-addestramento per potenziare il ragionamento visivo nei modelli visione-linguaggio, ma rimane poco chiaro quali capacità il RL migliori effettivamente rispetto alla messa a punto supervisionata utilizzata come inizializzazione di partenza (IN). I guadagni complessivi sui benchmark confondono molteplici fattori, rendendo difficile attribuire i miglioramenti a competenze specifiche. Per colmare questa lacuna, proponiamo un framework di analisi in stile Frankenstein che include: (i) localizzazione funzionale tramite *causal probing*; (ii) caratterizzazione degli aggiornamenti tramite confronto dei parametri; e (iii) test di trasferibilità tramite fusione di modelli. I nostri risultati rivelano che, a differenza dell'IN che modifica principalmente le rappresentazioni visive iniziali, il RL induce una modifica coerente del processo inferenziale, concentrata principalmente negli strati intermedi e finali della rete. Questi affinamenti a medio-terminale sono sia trasferibili (tramite fusione) che necessari (tramite blocco dei parametri) per ottenere i vantaggi del RL. Nel complesso, i nostri risultati suggeriscono che il contributo affidabile del RL nel ragionamento visivo non è un potenziamento uniforme della percezione visiva, ma un affinamento sistematico del calcolo nei transformer di medio-terminale che migliora l'allineamento visione-ragionamento e le prestazioni di ragionamento, evidenziando i limiti della valutazione basata esclusivamente sui benchmark per comprendere i miglioramenti nel ragionamento multimodale.

English

Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.

Cosa migliora l'RL nel Ragionamento Visivo? Un'analisi in stile Frankenstein

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Abstract

Support