Jenseits von SFT-zu-RL: Vorab-Abgleich durch Black-Box-On-Policy-Distillation für multimodales RL

Zusammenfassung

Das Standardverfahren nach dem Training für große multimodale Modelle (LMMs) umfasst überwachtes Feintuning (SFT) anhand kuratierter Demonstrationen, gefolgt von bestärkendem Lernen mit überprüfbaren Belohnungen (RLVR). Allerdings führt SFT zu einer distributionellen Drift, die weder die ursprünglichen Fähigkeiten des Modells bewahrt noch die Verteilungen der Überwachungsdaten treu abbildet. Dieses Problem wird beim multimodalen Schließen weiter verstärkt, wo Wahrnehmungsfehler und Schlussfolgerungsfehler unterschiedlichen Driftmustern folgen, die sich im nachfolgenden RL verstärken. Wir stellen PRISM vor, eine Drei-Stufen-Pipeline, die diese Drift abmildert, indem sie eine explizite Stufe zur Verteilungsanpassung zwischen SFT und RLVR einfügt. Aufbauend auf dem Prinzip der On-Policy-Distillation (OPD) formuliert PRISM die Anpassung als Blackbox-Adversarial-Spiel auf Antwort-Ebene zwischen der Policy und einem Mixture-of-Experts (MoE)-Diskriminator mit spezialisierten Experten für Wahrnehmung und Schlussfolgerung. Dies liefert entflochtene Korrektursignale, die die Policy in Richtung der Überwachungsverteilung steuern, ohne Zugriff auf Teacher-Logits zu benötigen. Während 1,26 Mio. öffentliche Demonstrationen für eine breite SFT-Initialisierung ausreichen, erfordert die Verteilungsanpassung Überwachungsdaten höherer Genauigkeit; daher haben wir zusätzlich 113.000 Demonstrationen mit Gemini 3 Flash kuratiert, die eine dichte visuelle Verankerung und schrittweise Begründung für die schwierigsten ungelösten Probleme aufweisen. Experimente mit Qwen3-VL zeigen, dass PRISM die nachgelagerte RLVR-Leistung konsistent über mehrere RL-Algorithmen (GRPO, DAPO, GSPO) und diverse multimodale Benchmarks hinweg verbessert und die durchschnittliche Genauigkeit gegenüber der SFT-zu-RLVR-Baseline bei 4B und 8B um +4,4 bzw. +6,0 Punkte steigert. Unser Code, unsere Daten und Modell-Checkpoints sind öffentlich verfügbar unter https://github.com/XIAO4579/PRISM.

English

The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.

Jenseits von SFT-zu-RL: Vorab-Abgleich durch Black-Box-On-Policy-Distillation für multimodales RL

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Zusammenfassung

Support