ChatPaper.aiChatPaper

Multi-Task GRPO: Zuverlässiges LLM-Reasoning über verschiedene Aufgaben hinweg

Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

February 5, 2026
papers.authors: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI

papers.abstract

RL-basiertes Nachtraining mit GRPO wird häufig eingesetzt, um große Sprachmodelle für individuelle Reasoning-Aufgaben zu verbessern. Für den realen Einsatz ist jedoch eine zuverlässige Leistung über verschiedene Aufgaben hinweg erforderlich. Eine einfache Mehrfachaufgaben-Adaption von GRPO führt oft zu unausgewogenen Ergebnissen, bei denen einige Aufgaben die Optimierung dominieren, während andere stagnieren. Darüber hinaus variieren Aufgaben stark darin, wie häufig Eingabeaufforderungen zu Null-Vorteilen (und somit zu Null-Gradienten) führen, was ihren effektiven Beitrag zum Optimierungssignal weiter verzerrt. Um diese Probleme zu adressieren, schlagen wir einen neuartigen Multi-Task-GRPO (MT-GRPO)-Algorithmus vor, der (i) Aufgaben-Gewichtungen dynamisch anpasst, um explizit die Leistung der schwächsten Aufgabe zu optimieren und einen ausgewogenen Fortschritt über alle Aufgaben hinweg zu fördern, und (ii) einen verhältniserhaltenden Sampler einführt, um sicherzustellen, dass die aufgaben-spezifischen Policy-Gradienten die angepassten Gewichtungen widerspiegeln. Experimente in 3-Aufgaben- und 9-Aufgaben-Szenarien zeigen, dass MT-GRPO durchgängig die Baseline-Methoden in der Genauigkeit der schwächsten Aufgabe übertrifft. Insbesondere erzielt MT-GRPO eine absolute Verbesserung der Leistung der schwächsten Aufgabe von 16–28 % gegenüber Standard-GRPO und von 6 % gegenüber DAPO, bei gleichzeitig wettbewerbsfähiger durchschnittlicher Genauigkeit. Darüber hinaus benötigt MT-GRPO in der 3-Aufgaben-Einstellung 50 % weniger Trainingsschritte, um eine Genauigkeit von 50 % für die schwächste Aufgabe zu erreichen, was eine deutlich verbesserte Effizienz bei der Erzielung zuverlässiger Leistung über Aufgaben hinweg demonstriert.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.
PDF65February 7, 2026