MMR1: Улучшение мультимодального рассуждения с использованием дисперсионно-ориентированной выборки и открытых ресурсов
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
September 25, 2025
Авторы: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI
Аннотация
Крупные мультимодальные модели рассуждений достигли значительного прогресса, однако их развитие ограничивается двумя основными проблемами: отсутствием открытых, масштабных, высококачественных данных с длинными цепочками рассуждений (CoT) и нестабильностью алгоритмов обучения с подкреплением (RL) на этапе пост-обучения. Group Relative Policy Optimization (GRPO), стандартный фреймворк для тонкой настройки RL, склонен к исчезновению градиента при низкой дисперсии наград, что ослабляет сигналы оптимизации и ухудшает сходимость. Данная работа вносит три ключевых вклада: (1) Мы предлагаем Variance-Aware Sampling (VAS), стратегию выбора данных, основанную на Variance Promotion Score (VPS), которая объединяет дисперсию результатов и разнообразие траекторий для повышения дисперсии наград и стабилизации оптимизации политик. (2) Мы публикуем масштабные, тщательно отобранные ресурсы, включающие ~1.6M данных CoT для холодного старта и ~15k пар вопросов и ответов для RL, разработанные для обеспечения качества, сложности и разнообразия, а также полностью воспроизводимую сквозную кодовую базу для обучения. (3) Мы открываем исходный код семейства мультимодальных моделей рассуждений различных масштабов, устанавливая стандартные базовые линии для сообщества. Эксперименты на наборах данных для математических рассуждений демонстрируют эффективность как отобранных данных, так и предложенного VAS. Подробные исследования и анализ вклада каждого компонента предоставляют дополнительные инсайты. Кроме того, мы теоретически доказываем, что дисперсия наград ограничивает снизу ожидаемую величину градиента политики, а VAS служит практическим механизмом для реализации этой гарантии. Наш код, данные и контрольные точки доступны по адресу https://github.com/LengSicong/MMR1.
English
Large multimodal reasoning models have achieved rapid progress, but their
advancement is constrained by two major limitations: the absence of open,
large-scale, high-quality long chain-of-thought (CoT) data, and the instability
of reinforcement learning (RL) algorithms in post-training. Group Relative
Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone
to gradient vanishing when reward variance is low, which weakens optimization
signals and impairs convergence. This work makes three contributions: (1) We
propose Variance-Aware Sampling (VAS), a data selection strategy guided by
Variance Promotion Score (VPS) that combines outcome variance and trajectory
diversity to promote reward variance and stabilize policy optimization. (2) We
release large-scale, carefully curated resources containing ~1.6M long CoT
cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty,
and diversity, along with a fully reproducible end-to-end training codebase.
(3) We open-source a family of multimodal reasoning models in multiple scales,
establishing standardized baselines for the community. Experiments across
mathematical reasoning benchmarks demonstrate the effectiveness of both the
curated data and the proposed VAS. Comprehensive ablation studies and analyses
provide further insight into the contributions of each component. In addition,
we theoretically establish that reward variance lower-bounds the expected
policy gradient magnitude, with VAS serving as a practical mechanism to realize
this guarantee. Our code, data, and checkpoints are available at
https://github.com/LengSicong/MMR1.