Wat verbetert RL voor Visueel Redeneren? Een Frankensteiniaanse Analyse

Samenvatting

Versterkend leren (RL) met verifieerbare beloningen is een standaard nafasestadium geworden om visueel redeneren in visie-taalmodellen te verbeteren, maar het blijft onduidelijk welke capaciteiten RL daadwerkelijk verbetert in vergelijking met supervised fine-tuning als koude-start-initialisatie (IN). End-to-end benchmarkwinsten verenigen meerdere factoren, waardoor het moeilijk is verbeteringen toe te schrijven aan specifieke vaardigheden. Om deze kloof te overbruggen, stellen we een Frankenstein-stijl analysekader voor dat omvat: (i) functionele lokalisatie via causale probing; (ii) updatekarakterisering via parametervergelijking; en (iii) overdraagbaarheidstest via modelmerging. In plaats daarvan induceert RL een consistente inference-time verschuiving voornamelijk in midden tot late lagen, en deze midden-late verfijningen zijn zowel overdraagbaar (via merging) als noodzakelijk (via freezing) voor RL-winst. Over het geheel genomen suggereren onze resultaten dat RL's betrouwbare bijdrage aan visueel redeneren geen uniforme verbetering van visuele perceptie is, maar een systematische verfijning van midden-late transformerberekening die de alignatie tussen visie en redeneren en de redeneerprestatie verbetert, wat de beperkingen van uitsluitend benchmark-gebaseerde evaluatie voor het begrijpen van multimodale redeneerverbeteringen benadrukt.

English

Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.

Wat verbetert RL voor Visueel Redeneren? Een Frankensteiniaanse Analyse

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Samenvatting

Support