롤아웃 증강을 통한 시각-언어 모델의 자기 수정 학습
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
February 9, 2026
저자: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
cs.AI
초록
시각-언어 모델(VLM)에서 복잡한 추론 문제를 해결하기 위해서는 자기 수정(self-correction)이 필수적입니다. 그러나 기존 강화 학습(RL) 방법은 효과적인 자기 수정 행동이 극히 드물게 나타나 학습 신호가 매우 희소하기 때문에 이를 학습하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 기존 롤아웃(rollout)을 재조합하여 밀집된 자기 수정 예시를 합성하는 RL 롤아웃 증강 프레임워크인 Octopus(correction-specific rollouts)를 제안합니다. 이 증강 기법은 롤아웃 재사용으로 인한 샘플 효율성 향상과 균형 잡힌 지도를 통한 RL 최적화 안정화를 동시에 달성합니다. 나아가, 우리는 응답 마스킹(response-masking) 전략을 도입하여 자기 수정을 직접적인 추론으로부터 분리함으로써 신호 간 충돌을 피하고 두 행동 모두 효과적으로 학습될 수 있도록 합니다. 이를 바탕으로 제어 가능한 자기 수정 능력을 지닌 추론 VLM인 Octopus-8B를 소개합니다. 7개 벤치마크에서 Octopus-8B는 오픈소스 VLM 중 최고 성능(SoTA)을 달성하며, 가장 우수한 RLVR 기준 모델을 1.0점 차로 능가하면서 스텝 당 훈련 시간은 0.72배만 소요됩니다.
English
Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.