За пределами SFT-to-RL: предварительная адаптация с помощью черного ящика и дистилляции на основе политики для многомодального обучения с подкреплением

Аннотация

Стандартный подход к пост-обучению больших мультимодальных моделей (LMM) включает контролируемую тонкую настройку (SFT) на курируемых демонстрациях с последующим обучением с подкреплением на основе проверяемых вознаграждений (RLVR). Однако SFT приводит к распределительному дрейфу, который не сохраняет исходные возможности модели и не точно соответствует распределению данных для обучения. Эта проблема усугубляется в мультимодальном reasoning'е, где ошибки восприятия и сбои в reasoning'е следуют разным паттернам дрейфа, которые усиливаются в ходе последующего RL. Мы представляем PRISM — трехэтапный конвейер, который смягчает этот дрейф путем добавления явного этапа выравнивания распределения между SFT и RLVR. Основываясь на принципе дистилляции по текущей политике (OPD), PRISM формулирует выравнивание как black-box, response-level адверсариальную игру между политикой и дискриминатором типа «смесь экспертов» (MoE) с выделенными экспертами по восприятию и reasoning'у, предоставляя разделенные корректирующие сигналы, которые направляют политику к целевому распределению данных без необходимости доступа к логитам учителя. Хотя 1.26 млн публичных демонстраций достаточно для широкой SFT-инициализации, выравнивание распределения требует данных обучения более высокого качества; поэтому мы подготовили дополнительно 113 тыс. демонстраций на основе Gemini 3 Flash, характеризующихся плотным визуальным grounding'ом и пошаговым reasoning'ом для самых сложных нерешенных проблем. Эксперименты на Qwen3-VL показывают, что PRISM стабильно улучшает результаты последующего RLVR при использовании различных алгоритмов RL (GRPO, DAPO, GSPO) и на разнообразных мультимодальных бенчмарках, повышая среднюю точность на +4.4 и +6.0 пунктов по сравнению с базовым подходом SFT-to-RLVR для моделей на 4B и 8B параметров соответственно. Наш код, данные и чекпоинты моделей общедоступны по адресу https://github.com/XIAO4579/PRISM.

English

The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.

За пределами SFT-to-RL: предварительная адаптация с помощью черного ящика и дистилляции на основе политики для многомодального обучения с подкреплением

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Аннотация

Support