MMR1: Potenziamento del Ragionamento Multimodale con Campionamento Consapevole della Varianza e Risorse Aperte
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
September 25, 2025
Autori: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI
Abstract
I grandi modelli di ragionamento multimodale hanno compiuto rapidi progressi, ma il loro avanzamento è limitato da due principali criticità: l'assenza di dati aperti, su larga scala e di alta qualità con lunghe catene di pensiero (CoT), e l'instabilità degli algoritmi di apprendimento per rinforzo (RL) durante la fase di post-addestramento. L'ottimizzazione delle politiche relative al gruppo (GRPO), il framework standard per il fine-tuning RL, è soggetta alla scomparsa del gradiente quando la varianza della ricompensa è bassa, il che indebolisce i segnali di ottimizzazione e compromette la convergenza. Questo lavoro apporta tre contributi: (1) Proponiamo il campionamento consapevole della varianza (VAS), una strategia di selezione dei dati guidata dal punteggio di promozione della varianza (VPS) che combina la varianza dei risultati e la diversità delle traiettorie per promuovere la varianza della ricompensa e stabilizzare l'ottimizzazione delle politiche. (2) Rilasciamo risorse su larga scala, accuratamente curate, contenenti ~1,6 milioni di dati CoT lunghi a freddo e ~15 mila coppie QA RL, progettate per garantire qualità, difficoltà e diversità, insieme a un codice di addestramento end-to-end completamente riproducibile. (3) Rendiamo disponibili una famiglia di modelli di ragionamento multimodale in diverse scale, stabilendo baseline standardizzate per la comunità. Gli esperimenti su benchmark di ragionamento matematico dimostrano l'efficacia sia dei dati curati che del VAS proposto. Studi di ablazione e analisi complete forniscono ulteriori approfondimenti sui contributi di ciascun componente. Inoltre, dimostriamo teoricamente che la varianza della ricompensa limita inferiormente l'entità attesa del gradiente della politica, con il VAS che funge da meccanismo pratico per realizzare questa garanzia. Il nostro codice, i dati e i checkpoint sono disponibili su https://github.com/LengSicong/MMR1.
English
Large multimodal reasoning models have achieved rapid progress, but their
advancement is constrained by two major limitations: the absence of open,
large-scale, high-quality long chain-of-thought (CoT) data, and the instability
of reinforcement learning (RL) algorithms in post-training. Group Relative
Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone
to gradient vanishing when reward variance is low, which weakens optimization
signals and impairs convergence. This work makes three contributions: (1) We
propose Variance-Aware Sampling (VAS), a data selection strategy guided by
Variance Promotion Score (VPS) that combines outcome variance and trajectory
diversity to promote reward variance and stabilize policy optimization. (2) We
release large-scale, carefully curated resources containing ~1.6M long CoT
cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty,
and diversity, along with a fully reproducible end-to-end training codebase.
(3) We open-source a family of multimodal reasoning models in multiple scales,
establishing standardized baselines for the community. Experiments across
mathematical reasoning benchmarks demonstrate the effectiveness of both the
curated data and the proposed VAS. Comprehensive ablation studies and analyses
provide further insight into the contributions of each component. In addition,
we theoretically establish that reward variance lower-bounds the expected
policy gradient magnitude, with VAS serving as a practical mechanism to realize
this guarantee. Our code, data, and checkpoints are available at
https://github.com/LengSicong/MMR1.