Voorbij SFT-naar-RL: Pre-alignment via Black-Box On-Policy Distillatie voor Multimodale RL
Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
May 1, 2026
Auteurs: Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin
cs.AI
Samenvatting
Het standaardrecept voor nabehandeling van grote multimodale modellen (LMM's) omvat supervised fine-tuning (SFT) op geselecteerde demonstraties, gevolgd door reinforcement learning met verifieerbare beloningen (RLVR). SFT introduceert echter een distributionele drift die noch de oorspronkelijke capaciteiten van het model behoudt, noch getrouw aansluit bij de supervisiedistributie. Dit probleem wordt verder versterkt bij multimodaal redeneren, waar perceptiefouten en redeneerfouten verschillende driftpatronen volgen die zich opstapelen tijdens daaropvolgende RL. Wij introduceren PRISM, een pijplijn met drie fasen die deze drift vermindert door een expliciete distributie-uitlijningsfase in te voegen tussen SFT en RLVR. Voortbouwend op het principe van on-policy distillation (OPD), benadert PRISM uitlijning als een black-box, response-level adversariaal spel tussen het beleid en een Mixture-of-Experts (MoE) discriminator met toegewijde perceptie- en redeneerexperts. Dit levert ontvlochte correctieve signalen op die het beleid sturen naar de supervisiedistributie zonder toegang tot teacher logits. Terwijl 1,26M openbare demonstraties volstaan voor brede SFT-initialisatie, vereist distributie-uitlijning supervisie van hogere kwaliteit; daarom hebben wij 113K aanvullende demonstraties samengesteld met Gemini 3 Flash, met gedetailleerde visuele verankering en stapsgewijs redeneren over de moeilijkste onopgeloste problemen. Experimenten met Qwen3-VL tonen aan dat PRISM de downstream RLVR-prestaties consistent verbetert bij meerdere RL-algoritmen (GRPO, DAPO, GSPO) en diverse multimodale benchmarks, met een gemiddelde nauwkeurigheidsverbetering van +4,4 en +6,0 punten ten opzichte van de SFT-naar-RLVR-baseline voor respectievelijk 4B en 8B. Onze code, data en modelcheckpoints zijn openbaar beschikbaar op https://github.com/XIAO4579/PRISM.
English
The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.