MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage sensible à la variance et à des ressources ouvertes
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
September 25, 2025
papers.authors: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI
papers.abstract
Les grands modèles de raisonnement multimodal ont connu des progrès rapides, mais leur avancée est limitée par deux contraintes majeures : l'absence de données ouvertes, à grande échelle et de haute qualité pour les longues chaînes de pensée (CoT), ainsi que l'instabilité des algorithmes d'apprentissage par renforcement (RL) lors de la post-formation. L'Optimisation de Politique Relative par Groupe (GRPO), le cadre standard pour le réglage fin en RL, est sujette à la disparition du gradient lorsque la variance des récompenses est faible, ce qui affaiblit les signaux d'optimisation et compromet la convergence. Ce travail apporte trois contributions : (1) Nous proposons l'Échantillonnage Sensible à la Variance (VAS), une stratégie de sélection de données guidée par le Score de Promotion de la Variance (VPS) qui combine la variance des résultats et la diversité des trajectoires pour augmenter la variance des récompenses et stabiliser l'optimisation de la politique. (2) Nous publions des ressources à grande échelle, soigneusement sélectionnées, contenant environ 1,6 million de données de démarrage à froid de longues CoT et environ 15 000 paires de questions-réponses pour la RL, conçues pour garantir la qualité, la difficulté et la diversité, ainsi qu'une base de code de formation reproductible de bout en bout. (3) Nous rendons publics une famille de modèles de raisonnement multimodal à différentes échelles, établissant des références standardisées pour la communauté. Les expériences sur des benchmarks de raisonnement mathématique démontrent l'efficacité des données sélectionnées et de la méthode VAS proposée. Des études d'ablation et des analyses approfondies fournissent des insights supplémentaires sur les contributions de chaque composant. De plus, nous établissons théoriquement que la variance des récompenses borne inférieurement l'amplitude attendue du gradient de la politique, avec VAS servant de mécanisme pratique pour réaliser cette garantie. Notre code, données et points de contrôle sont disponibles à l'adresse https://github.com/LengSicong/MMR1.
English
Large multimodal reasoning models have achieved rapid progress, but their
advancement is constrained by two major limitations: the absence of open,
large-scale, high-quality long chain-of-thought (CoT) data, and the instability
of reinforcement learning (RL) algorithms in post-training. Group Relative
Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone
to gradient vanishing when reward variance is low, which weakens optimization
signals and impairs convergence. This work makes three contributions: (1) We
propose Variance-Aware Sampling (VAS), a data selection strategy guided by
Variance Promotion Score (VPS) that combines outcome variance and trajectory
diversity to promote reward variance and stabilize policy optimization. (2) We
release large-scale, carefully curated resources containing ~1.6M long CoT
cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty,
and diversity, along with a fully reproducible end-to-end training codebase.
(3) We open-source a family of multimodal reasoning models in multiple scales,
establishing standardized baselines for the community. Experiments across
mathematical reasoning benchmarks demonstrate the effectiveness of both the
curated data and the proposed VAS. Comprehensive ablation studies and analyses
provide further insight into the contributions of each component. In addition,
we theoretically establish that reward variance lower-bounds the expected
policy gradient magnitude, with VAS serving as a practical mechanism to realize
this guarantee. Our code, data, and checkpoints are available at
https://github.com/LengSicong/MMR1.