Au-delà du SFT vers RL : Pré-alignement par distillation en politique en boîte noire pour l'apprentissage par renforcement multimodal

Résumé

La méthode standard d’entraînement post-formation pour les grands modèles multimodaux (LMM) consiste à appliquer un fine-tuning supervisé (SFT) sur des démonstrations sélectionnées, suivi d’un apprentissage par renforcement avec récompenses vérifiables (RLVR). Cependant, le SFT introduit un décalage distributionnel qui ne préserve ni les capacités originales du modèle, ni ne correspond fidèlement à la distribution de supervision. Ce problème est amplifié dans le raisonnement multimodal, où les erreurs de perception et les échecs de raisonnement suivent des schémas de décalage distincts qui s’accumulent lors du RL ultérieur. Nous présentons PRISM, un pipeline en trois étapes qui atténue ce décalage en insérant une étape explicite d’alignement distributionnel entre le SFT et le RLVR. S’appuyant sur le principe de la distillation sur politique (OPD), PRISM transforme l’alignement en un jeu antagoniste en boîte noire au niveau des réponses, entre la politique et un discriminateur de type Mixture-of-Experts (MoE) doté d’experts dédiés à la perception et au raisonnement, fournissant ainsi des signaux correctifs désentrelacés qui guident la politique vers la distribution de supervision sans nécessiter l’accès aux logits de l’enseignant. Bien que 1,26 million de démonstrations publiques suffisent pour une initialisation SFT large, l’alignement distributionnel nécessite une supervision de plus haute fidélité ; nous avons donc constitué 113 000 démonstrations supplémentaires à partir de Gemini 3 Flash, comportant un ancrage visuel dense et un raisonnement étape par étape sur les problèmes non résolus les plus difficiles. Les expériences sur Qwen3-VL montrent que PRISM améliore constamment les performances en RLVR en aval, avec plusieurs algorithmes de RL (GRPO, DAPO, GSPO) et sur divers benchmarks multimodaux, augmentant la précision moyenne de +4,4 et +6,0 points par rapport à la base SFT-vers-RLVR pour les modèles 4B et 8B, respectivement. Notre code, données et points de contrôle des modèles sont disponibles publiquement à l’adresse https://github.com/XIAO4579/PRISM.

English

The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.

Au-delà du SFT vers RL : Pré-alignement par distillation en politique en boîte noire pour l'apprentissage par renforcement multimodal

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Résumé

Support