MMR1: Verbetering van Multimodaal Redeneren met Variantiebewuste Steekproefname en Open Bronnen
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
September 25, 2025
Auteurs: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI
Samenvatting
Grote multimodale redeneermodellen hebben snelle vooruitgang geboekt, maar hun ontwikkeling wordt beperkt door twee belangrijke beperkingen: het ontbreken van open, grootschalige, hoogwaardige lange keten-van-gedachten (CoT) data, en de instabiliteit van reinforcement learning (RL) algoritmen na de training. Group Relative Policy Optimization (GRPO), het standaardkader voor RL-finetuning, is gevoelig voor verdwijnende gradients wanneer de beloningsvariantie laag is, wat de optimalisatiesignalen verzwakt en de convergentie belemmert. Dit werk levert drie bijdragen: (1) We stellen Variance-Aware Sampling (VAS) voor, een dataselectiestrategie geleid door Variance Promotion Score (VPS) die uitkomstvariantie en trajectdiversiteit combineert om beloningsvariantie te bevorderen en beleidsoptimalisatie te stabiliseren. (2) We brengen grootschalige, zorgvuldig samengestelde bronnen uit met ~1,6 miljoen lange CoT cold-start data en ~15.000 RL QA-paren, ontworpen om kwaliteit, moeilijkheid en diversiteit te waarborgen, samen met een volledig reproduceerbare end-to-end trainingscodebase. (3) We open-sourcen een familie van multimodale redeneermodellen in meerdere schalen, waarmee gestandaardiseerde basislijnen voor de gemeenschap worden vastgesteld. Experimenten op wiskundige redeneerbenchmarks tonen de effectiviteit aan van zowel de samengestelde data als de voorgestelde VAS. Uitgebreide ablatiestudies en analyses bieden verder inzicht in de bijdragen van elke component. Daarnaast leggen we theoretisch vast dat beloningsvariantie een ondergrens vormt voor de verwachte beleidsgradiëntgrootte, waarbij VAS dient als een praktisch mechanisme om deze garantie te realiseren. Onze code, data en checkpoints zijn beschikbaar op https://github.com/LengSicong/MMR1.
English
Large multimodal reasoning models have achieved rapid progress, but their
advancement is constrained by two major limitations: the absence of open,
large-scale, high-quality long chain-of-thought (CoT) data, and the instability
of reinforcement learning (RL) algorithms in post-training. Group Relative
Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone
to gradient vanishing when reward variance is low, which weakens optimization
signals and impairs convergence. This work makes three contributions: (1) We
propose Variance-Aware Sampling (VAS), a data selection strategy guided by
Variance Promotion Score (VPS) that combines outcome variance and trajectory
diversity to promote reward variance and stabilize policy optimization. (2) We
release large-scale, carefully curated resources containing ~1.6M long CoT
cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty,
and diversity, along with a fully reproducible end-to-end training codebase.
(3) We open-source a family of multimodal reasoning models in multiple scales,
establishing standardized baselines for the community. Experiments across
mathematical reasoning benchmarks demonstrate the effectiveness of both the
curated data and the proposed VAS. Comprehensive ablation studies and analyses
provide further insight into the contributions of each component. In addition,
we theoretically establish that reward variance lower-bounds the expected
policy gradient magnitude, with VAS serving as a practical mechanism to realize
this guarantee. Our code, data, and checkpoints are available at
https://github.com/LengSicong/MMR1.