O que a RL Melhora no Raciocínio Visual? Uma Análise Estilo Frankenstein

Resumo

O aprendizado por reforço (RL) com recompensas verificáveis tornou-se uma etapa padrão de pós-treinamento para impulsionar o raciocínio visual em modelos visão-linguagem, mas ainda não está claro quais capacidades o RL realmente melhora em comparação com o ajuste fino supervisionado como inicialização de partida a frio (IN). Ganhos em benchmarks de ponta a ponta combinam múltiplos fatores, dificultando a atribuição de melhorias a habilidades específicas. Para preencher essa lacuna, propomos uma estrutura de análise estilo Frankenstein incluindo: (i) localização funcional por meio de sondagem causal; (ii) caracterização de atualização por comparação de parâmetros; e (iii) teste de transferibilidade via fusão de modelos. Em vez disso, o RL induz uma mudança consistente no tempo de inferência principalmente em camadas intermediárias e finais, e esses refinamentos de meio a final são tanto transferíveis (via fusão) quanto necessários (via congelamento) para os ganhos do RL. No geral, nossos resultados sugerem que a contribuição confiável do RL no raciocínio visual não é um aprimoramento uniforme da percepção visual, mas um refinamento sistemático da computação em transformadores de meio a final que melhora o alinhamento visão-raciocínio e o desempenho do raciocínio, destacando as limitações da avaliação baseada apenas em benchmarks para compreender melhorias no raciocínio multimodal.

English

Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.

O que a RL Melhora no Raciocínio Visual? Uma Análise Estilo Frankenstein

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Resumo

Support