¿Qué mejora el Aprendizaje por Refuerzo en el Razonamiento Visual? Un Análisis al Estilo Frankenstein
What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis
February 12, 2026
Autores: Xirui Li, Ming Li, Tianyi Zhou
cs.AI
Resumen
El aprendizaje por refuerzo (RL) con recompensas verificables se ha convertido en una etapa estándar posterior al entrenamiento para potenciar el razonamiento visual en modelos de visión y lenguaje, sin embargo, aún no está claro qué capacidades mejora realmente el RL en comparación con el ajuste fino supervisado como inicialización desde cero (IN). Las mejoras en los puntos de referencia de extremo a extremo combinan múltiples factores, lo que dificulta atribuir las mejoras a habilidades específicas. Para cerrar esta brecha, proponemos un marco de análisis estilo Frankenstein que incluye: (i) localización funcional mediante sondeo causal; (ii) caracterización de actualizaciones mediante comparación de parámetros; y (iii) prueba de transferibilidad mediante fusión de modelos. En cambio, el RL induce un cambio consistente en el momento de la inferencia principalmente en las capas medias y tardías, y estos refinamientos de mediano a tardío son tanto transferibles (mediante fusión) como necesarios (mediante congelación) para las ganancias del RL. En general, nuestros resultados sugieren que la contribución confiable del RL en el razonamiento visual no es una mejora uniforme de la percepción visual, sino un refinamiento sistemático del cálculo en las etapas medias y tardías del transformador que mejora la alineación visión-razonamiento y el rendimiento del razonamiento, destacando las limitaciones de la evaluación basada únicamente en puntos de referencia para comprender las mejoras en el razonamiento multimodal.
English
Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.