SFTからRLを超えて:マルチモーダル強化学習のためのブラックボックス方策オン蒸留による事前アライメント
Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
May 1, 2026
著者: Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin
cs.AI
要旨
大規模マルチモーダルモデル(LMM)の標準的な学習後レシピでは、厳選されたデモンストレーションによる教師ありファインチューニング(SFT)を適用した後、検証可能な報酬を用いた強化学習(RLVR)を実施する。しかし、SFTは分布ドリフトを引き起こし、モデルの本来の能力を保持せず、教師データの分布にも忠実に一致しない。この問題はマルチモーダル推論においてさらに顕著であり、知覚エラーと推論失敗は異なるドリフトパターンを示し、後続のRL段階で累積的に悪化する。我々はPRISMを提案する。これはSFTとRLVRの間に明示的な分布調整段階を挿入することで、このドリフトを緩和する3段階パイプラインである。方策蒸留(OPD)の原理に基づき、PRISMは調整を、方策と専用の知覚・推論エキスパートを備えたMixture-of-Experts(MoE)識別器とのブラックボックス応答レベル敵対ゲームとして定式化する。これにより、教師モデルのロジットへのアクセスを必要とせず、教師データ分布へ方策を導く分離された補正信号を提供する。126万の公開デモンストレーションは広範なSFT初期化には十分であるが、分布調整には更高精度の教師データが要求される。このため、我々はGemini 3 Flashから11万3千の追加デモンストレーションを厳選し、未解決難題における密な視覚的接地と段階的推論を特徴とする。Qwen3-VLを用いた実験では、PRISMが複数のRLアルゴリズム(GRPO、DAPO、GSPO)と多様なマルチモーダルベンチマークにわたり、下流のRLVR性能を一貫して向上させ、SFTからRLVRへのベースラインと比較して4Bモデルで+4.4ポイント、8Bモデルで+6.0ポイント平均精度を向上させることを示した。コード、データ、モデルチェックポイントはhttps://github.com/XIAO4579/PRISM で公開されている。
English
The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.