GRPO Multi-Tâches : Un Raisonnement Fiable des LLM à Travers les Tâches
Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
February 5, 2026
papers.authors: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI
papers.abstract
L’apprentissage par renforcement post-formation avec GRPO est largement utilisé pour améliorer les modèles de langage de grande taille sur des tâches de raisonnement individuelles. Cependant, un déploiement réel nécessite des performances fiables sur diverses tâches. Une adaptation multi-tâche directe de GRPO conduit souvent à des résultats déséquilibrés, certaines tâches dominant l’optimisation tandis que d’autres stagnent. De plus, les tâches peuvent varier considérablement dans la fréquence à laquelle les invites produisent des avantages nuls (et donc des gradients nuls), ce qui déforme davantage leur contribution effective au signal d’optimisation. Pour résoudre ces problèmes, nous proposons un nouvel algorithme GRPO multi-tâches (MT-GRPO) qui (i) adapte dynamiquement les pondérations des tâches pour optimiser explicitement les performances de la tâche la plus faible et promouvoir un progrès équilibré entre les tâches, et (ii) introduit un échantillonneur préservant les ratios pour garantir que les gradients de politique par tâche reflètent les pondérations adaptées. Les expériences sur des configurations à 3 et 9 tâches montrent que MT-GRPO surpasse constamment les méthodes de référence en précision sur la tâche la plus faible. En particulier, MT-GRPO obtient une amélioration absolue de 16 à 28 % et de 6 % par rapport à GRPO standard et DAPO, respectivement, sur la performance de la tâche la plus faible, tout en maintenant une précision moyenne compétitive. De plus, MT-GRPO nécessite 50 % d’étapes d’apprentissage en moins pour atteindre 50 % de précision sur la tâche la plus faible dans la configuration à 3 tâches, démontrant une efficacité nettement améliorée pour atteindre des performances fiables sur l’ensemble des tâches.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.