Más allá de SFT a RL: Prealineación mediante destilación en política de caja negra para RL multimodal
Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
May 1, 2026
Autores: Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin
cs.AI
Resumen
La receta estándar posterior al entrenamiento para modelos multimodales grandes (LMM) aplica el ajuste fino supervisado (SFT) en demostraciones curadas, seguido del aprendizaje por refuerzo con recompensas verificables (RLVR). Sin embargo, el SFT introduce una deriva distribucional que no preserva las capacidades originales del modelo ni se ajusta fielmente a la distribución de supervisión. Este problema se amplifica aún más en el razonamiento multimodal, donde los errores de percepción y los fallos de razonamiento siguen patrones de deriva distintos que se combinan durante el RL posterior. Presentamos PRISM, un pipeline de tres etapas que mitiga esta deriva insertando una etapa explícita de alineación distribucional entre el SFT y el RLVR. Basándose en el principio de la destilación on-policy (OPD), PRISM plantea la alineación como un juego adversarial de caja negra a nivel de respuesta entre la política y un discriminador de Mezcla de Expertos (MoE) con expertos dedicados a percepción y razonamiento, proporcionando señales correctivas desacopladas que guían la política hacia la distribución de supervisión sin requerir acceso a los logits del profesor. Si bien 1.26 millones de demostraciones públicas son suficientes para una inicialización SFT amplia, la alineación distribucional exige una supervisión de mayor fidelidad; por lo tanto, seleccionamos 113,000 demostraciones adicionales de Gemini 3 Flash, que presentan un anclaje visual denso y un razonamiento paso a paso sobre los problemas no resueltos más difíciles. Los experimentos en Qwen3-VL muestran que PRISM mejora consistentemente el rendimiento del RLVR posterior en múltiples algoritmos de RL (GRPO, DAPO, GSPO) y diversos benchmarks multimodales, mejorando la precisión promedio en +4.4 y +6.0 puntos sobre la línea base SFT-to-RLVR en los modelos de 4B y 8B, respectivamente. Nuestro código, datos y puntos de control del modelo están disponibles públicamente en https://github.com/XIAO4579/PRISM.
English
The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.