시각적 추론에서 강화학습은 무엇을 개선하는가? 프랑켄슈타인 스타일 분석
What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis
February 12, 2026
저자: Xirui Li, Ming Li, Tianyi Zhou
cs.AI
초록
검증 가능한 보상을 활용한 강화학습(RL)은 시각-언어 모델의 시각적 추론 능력 향상을 위한 표준 사후 훈련 단계로 자리잡았지만, RL이 감독식 미세조정을 통한 콜드 스타트 초기화(IN)와 비교해 실제로 어떤 능력을 향상시키는지는 여전히 불분명합니다. 종합 벤치마크 성능 향상은 여러 요인이 혼재되어 있어 개선된 성능을 특정 능력으로 귀속시키기 어렵습니다. 이러한 격차를 해소하기 위해 우리는 프랑켄슈타인 스타일 분석 프레임워크를 제안합니다: (i) 인과적 프로빙을 통한 기능적 지역화, (ii) 매개변수 비교를 통한 업데이트 특성 분석, (iii) 모델 병합을 통한 전이 가능성 검증. 그 결과, RL은 주로 중간~후반부 레이어에서 추론 시 일관된 변화를 유도하며, 이러한 중후반부 정제된 업데이트는 (병합을 통해) 전이 가능하고 (고정을 통해) RL 성능 향상에 필수적임을 확인했습니다. 전반적으로 우리의 결과는 시각적 추론에서 RL의 신뢰할 수 있는 기여가 시각 인식의 균일한 향상이 아니라, 중후반부 트랜스포머 계산 체계를 정제하여 시각-추론 간 정렬과 추론 성능을 개선하는 데 있음을 시사합니다. 이는 다중모달 추론 개선을 이해하는 데 벤치마크 평가만으로는 한계가 있음을 강조합니다.
English
Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.