GRPO Multitarea: Razonamiento Confiable de LLM en Diversas Tareas
Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
February 5, 2026
Autores: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI
Resumen
El post-entrenamiento basado en RL con GRPO se utiliza ampliamente para mejorar los modelos de lenguaje grandes en tareas de razonamiento individual. Sin embargo, el despliegue en el mundo real requiere un rendimiento confiable en diversas tareas. Una adaptación multitarea directa de GRPO a menudo conduce a resultados desequilibrados, donde algunas tareas dominan la optimización mientras que otras se estancan. Además, las tareas pueden variar ampliamente en la frecuencia con la que los estímulos generan ventajas nulas (y, por tanto, gradientes nulos), lo que distorsiona aún más su contribución efectiva a la señal de optimización. Para abordar estos problemas, proponemos un nuevo algoritmo GRPO Multitarea (MT-GRPO) que (i) adapta dinámicamente los pesos de las tareas para optimizar explícitamente el rendimiento de la peor tarea y promover un progreso equilibrado, y (ii) introduce un muestreador que preserva proporciones para garantizar que los gradientes de la política por tarea reflejen los pesos adaptados. Los experimentos en configuraciones de 3 y 9 tareas muestran que MT-GRPO supera consistentemente a los métodos base en precisión de la peor tarea. En particular, MT-GRPO logra una mejora absoluta del 16-28% y 6% en el rendimiento de la peor tarea respecto a GRPO estándar y DAPO, respectivamente, manteniendo una precisión media competitiva. Además, MT-GRPO requiere 50% menos pasos de entrenamiento para alcanzar 50% de precisión en la peor tarea en la configuración de 3 tareas, demostrando una eficiencia sustancialmente mejorada para lograr un rendimiento confiable en todas las tareas.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.