MMR1: Verbesserung des multimodalen Denkens durch varianzbewusste Stichprobenziehung und offene Ressourcen
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
September 25, 2025
papers.authors: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI
papers.abstract
Große multimodale Reasoning-Modelle haben rasante Fortschritte erzielt, doch ihre Weiterentwicklung wird durch zwei wesentliche Einschränkungen behindert: das Fehlen offener, groß angelegter, hochwertiger Daten mit langen Denkketten (Chain-of-Thought, CoT) und die Instabilität von Reinforcement-Learning (RL)-Algorithmen im Post-Training. Group Relative Policy Optimization (GRPO), das Standardframework für RL-Feintuning, neigt zum Verschwinden von Gradienten bei geringer Varianz der Belohnungen, was Optimierungssignale schwächt und die Konvergenz beeinträchtigt. Diese Arbeit leistet drei Beiträge: (1) Wir schlagen Variance-Aware Sampling (VAS) vor, eine Datenauswahlstrategie, die durch den Variance Promotion Score (VPS) geleitet wird und Ergebnisvarianz mit Trajektorienvielfalt kombiniert, um die Belohnungsvarianz zu fördern und die Policy-Optimierung zu stabilisieren. (2) Wir veröffentlichen groß angelegte, sorgfältig kuratierte Ressourcen mit ~1,6 Millionen langen CoT-Cold-Start-Daten und ~15.000 RL-Frage-Antwort-Paaren, die Qualität, Schwierigkeitsgrad und Vielfalt gewährleisten, sowie einen vollständig reproduzierbaren End-to-End-Trainingscode. (3) Wir stellen eine Familie multimodaler Reasoning-Modelle in verschiedenen Größenordnungen als Open Source zur Verfügung und etablieren damit standardisierte Baselines für die Community. Experimente auf mathematischen Reasoning-Benchmarks demonstrieren die Wirksamkeit sowohl der kuratierten Daten als auch des vorgeschlagenen VAS. Umfassende Ablationsstudien und Analysen liefern weitere Einblicke in die Beiträge der einzelnen Komponenten. Zusätzlich zeigen wir theoretisch, dass die Belohnungsvarianz die erwartete Policy-Gradienten-Größe nach unten begrenzt, wobei VAS als praktischer Mechanismus dient, um diese Garantie zu realisieren. Unser Code, die Daten und Checkpoints sind unter https://github.com/LengSicong/MMR1 verfügbar.
English
Large multimodal reasoning models have achieved rapid progress, but their
advancement is constrained by two major limitations: the absence of open,
large-scale, high-quality long chain-of-thought (CoT) data, and the instability
of reinforcement learning (RL) algorithms in post-training. Group Relative
Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone
to gradient vanishing when reward variance is low, which weakens optimization
signals and impairs convergence. This work makes three contributions: (1) We
propose Variance-Aware Sampling (VAS), a data selection strategy guided by
Variance Promotion Score (VPS) that combines outcome variance and trajectory
diversity to promote reward variance and stabilize policy optimization. (2) We
release large-scale, carefully curated resources containing ~1.6M long CoT
cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty,
and diversity, along with a fully reproducible end-to-end training codebase.
(3) We open-source a family of multimodal reasoning models in multiple scales,
establishing standardized baselines for the community. Experiments across
mathematical reasoning benchmarks demonstrate the effectiveness of both the
curated data and the proposed VAS. Comprehensive ablation studies and analyses
provide further insight into the contributions of each component. In addition,
we theoretically establish that reward variance lower-bounds the expected
policy gradient magnitude, with VAS serving as a practical mechanism to realize
this guarantee. Our code, data, and checkpoints are available at
https://github.com/LengSicong/MMR1.