ChatPaper.aiChatPaper

MMR1: Mejora del razonamiento multimodal mediante muestreo consciente de la varianza y recursos abiertos

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

September 25, 2025
Autores: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
cs.AI

Resumen

Los modelos de razonamiento multimodal de gran escala han logrado avances rápidos, pero su progreso está limitado por dos grandes restricciones: la ausencia de datos abiertos, a gran escala y de alta calidad con cadenas largas de pensamiento (CoT, por sus siglas en inglés), y la inestabilidad de los algoritmos de aprendizaje por refuerzo (RL, por sus siglas en inglés) en la fase posterior al entrenamiento. El marco estándar para el ajuste fino de RL, conocido como Group Relative Policy Optimization (GRPO), es propenso a la desaparición del gradiente cuando la varianza de la recompensa es baja, lo que debilita las señales de optimización y perjudica la convergencia. Este trabajo realiza tres contribuciones: (1) Proponemos Variance-Aware Sampling (VAS), una estrategia de selección de datos guiada por el Variance Promotion Score (VPS) que combina la varianza de los resultados y la diversidad de las trayectorias para promover la varianza de la recompensa y estabilizar la optimización de políticas. (2) Publicamos recursos a gran escala y cuidadosamente seleccionados que contienen ~1.6M datos de arranque en frío con CoT largos y ~15k pares de preguntas y respuestas para RL, diseñados para garantizar calidad, dificultad y diversidad, junto con un código de entrenamiento completamente reproducible de extremo a extremo. (3) Liberamos una familia de modelos de razonamiento multimodal en múltiples escalas, estableciendo líneas base estandarizadas para la comunidad. Los experimentos en benchmarks de razonamiento matemático demuestran la efectividad tanto de los datos seleccionados como del VAS propuesto. Estudios de ablación y análisis exhaustivos proporcionan una mayor comprensión de las contribuciones de cada componente. Además, establecemos teóricamente que la varianza de la recompensa limita inferiormente la magnitud esperada del gradiente de la política, con VAS como un mecanismo práctico para garantizar esto. Nuestro código, datos y puntos de control están disponibles en https://github.com/LengSicong/MMR1.
English
Large multimodal reasoning models have achieved rapid progress, but their advancement is constrained by two major limitations: the absence of open, large-scale, high-quality long chain-of-thought (CoT) data, and the instability of reinforcement learning (RL) algorithms in post-training. Group Relative Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone to gradient vanishing when reward variance is low, which weakens optimization signals and impairs convergence. This work makes three contributions: (1) We propose Variance-Aware Sampling (VAS), a data selection strategy guided by Variance Promotion Score (VPS) that combines outcome variance and trajectory diversity to promote reward variance and stabilize policy optimization. (2) We release large-scale, carefully curated resources containing ~1.6M long CoT cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty, and diversity, along with a fully reproducible end-to-end training codebase. (3) We open-source a family of multimodal reasoning models in multiple scales, establishing standardized baselines for the community. Experiments across mathematical reasoning benchmarks demonstrate the effectiveness of both the curated data and the proposed VAS. Comprehensive ablation studies and analyses provide further insight into the contributions of each component. In addition, we theoretically establish that reward variance lower-bounds the expected policy gradient magnitude, with VAS serving as a practical mechanism to realize this guarantee. Our code, data, and checkpoints are available at https://github.com/LengSicong/MMR1.
PDF932September 26, 2025