MMR1: Aprimorando o Raciocínio Multimodal com Amostragem Consciente da Variância e Recursos Abertos
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
September 25, 2025
Autores: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI
Resumo
Modelos de raciocínio multimodal de grande escala têm alcançado progresso rápido, mas seu avanço é limitado por duas grandes restrições: a ausência de dados abertos, em larga escala e de alta qualidade, com cadeias longas de pensamento (CoT, do inglês "Chain-of-Thought"), e a instabilidade de algoritmos de aprendizado por reforço (RL, do inglês "Reinforcement Learning") no pós-treinamento. O Group Relative Policy Optimization (GRPO), o framework padrão para ajuste fino de RL, é propenso ao desaparecimento de gradientes quando a variância da recompensa é baixa, o que enfraquece os sinais de otimização e prejudica a convergência. Este trabalho faz três contribuições: (1) Propomos o Variance-Aware Sampling (VAS), uma estratégia de seleção de dados guiada pelo Variance Promotion Score (VPS), que combina variância de resultados e diversidade de trajetórias para promover a variância de recompensa e estabilizar a otimização de políticas. (2) Disponibilizamos recursos em larga escala, cuidadosamente curados, contendo ~1,6M de dados de CoT longos para inicialização a frio e ~15k pares de perguntas e respostas de RL, projetados para garantir qualidade, dificuldade e diversidade, juntamente com uma base de código de treinamento totalmente reproduzível de ponta a ponta. (3) Disponibilizamos publicamente uma família de modelos de raciocínio multimodal em múltiplas escalas, estabelecendo baselines padronizadas para a comunidade. Experimentos em benchmarks de raciocínio matemático demonstram a eficácia tanto dos dados curados quanto do VAS proposto. Estudos de ablação e análises abrangentes fornecem insights adicionais sobre as contribuições de cada componente. Além disso, estabelecemos teoricamente que a variância da recompensa limita inferiormente a magnitude esperada do gradiente da política, com o VAS servindo como um mecanismo prático para realizar essa garantia. Nosso código, dados e checkpoints estão disponíveis em https://github.com/LengSicong/MMR1.
English
Large multimodal reasoning models have achieved rapid progress, but their
advancement is constrained by two major limitations: the absence of open,
large-scale, high-quality long chain-of-thought (CoT) data, and the instability
of reinforcement learning (RL) algorithms in post-training. Group Relative
Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone
to gradient vanishing when reward variance is low, which weakens optimization
signals and impairs convergence. This work makes three contributions: (1) We
propose Variance-Aware Sampling (VAS), a data selection strategy guided by
Variance Promotion Score (VPS) that combines outcome variance and trajectory
diversity to promote reward variance and stabilize policy optimization. (2) We
release large-scale, carefully curated resources containing ~1.6M long CoT
cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty,
and diversity, along with a fully reproducible end-to-end training codebase.
(3) We open-source a family of multimodal reasoning models in multiple scales,
establishing standardized baselines for the community. Experiments across
mathematical reasoning benchmarks demonstrate the effectiveness of both the
curated data and the proposed VAS. Comprehensive ablation studies and analyses
provide further insight into the contributions of each component. In addition,
we theoretically establish that reward variance lower-bounds the expected
policy gradient magnitude, with VAS serving as a practical mechanism to realize
this guarantee. Our code, data, and checkpoints are available at
https://github.com/LengSicong/MMR1.