ChatPaper.aiChatPaper

ビジョン言語モデルにおけるロールアウト拡張による自己修正学習

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

February 9, 2026
著者: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
cs.AI

要旨

視覚言語モデル(VLM)における複雑な推論問題解決には、自己修正が不可欠である。しかし、効果的な自己修正行動は稀にしか生じないため学習信号が極めて疎となり、既存の強化学習(RL)手法ではこれを学習することが困難である。この課題に対処するため、我々は既存のロールアウトを再結合することで密な自己修正事例を合成するRLロールアウト拡張フレームワーク「修正特化型ロールアウト(Octopus)」を提案する。この拡張により、ロールアウトの再利用によるサンプル効率の向上と、均衡の取れた監督によるRL最適化の安定化が同時に実現される。さらに、自己修正と直接推論を分離して信号の衝突を回避し、両行動の効果的な学習を可能とする応答マスキング戦略を導入する。これを基盤として、制御可能な自己修正能力を備えた推論VLMであるOctopus-8Bを開発した。7つのベンチマークにおいて、オープンソースVLMの中でSoTA性能を達成し、最高のRLVRベースラインを1.0ポイント上回りながら、ステップ当たりの学習時間は0.72倍のみで済んだ。
English
Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.
PDF21February 12, 2026