ChatPaper.aiChatPaper

Multi-Task GRPO: Betrouwbare Redeneervaardigheid van LLM's voor Verschillende Taken

Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

February 5, 2026
Auteurs: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI

Samenvatting

Op RL gebaseerde naf-training met GRPO wordt veel gebruikt om grote taalmodellen te verbeteren voor individuele redeneertaken. In de praktijk is echter betrouwbare prestaties over diverse taken heen vereist. Een eenvoudige multi-task aanpassing van GRPO leidt vaak tot onevenwichtige resultaten, waarbij sommige taken de optimalisatie domineren terwijl andere stagneren. Bovendien kunnen taken sterk verschillen in hoe vaak prompts nulvoordelen opleveren (en dus nulgradiënten), wat hun effectieve bijdrage aan het optimalisatiesignaal verder verstoort. Om deze problemen aan te pakken, stellen wij een nieuw Multi-Task GRPO (MT-GRPO) algoritme voor dat (i) taakgewichten dynamisch aanpast om expliciet de prestaties van de zwakste taak te optimaliseren en evenwichtige vooruitgang over taken te bevorderen, en (ii) een ratio-behoudende steekproefnemer introduceert om ervoor te zorgen dat de beleidsgradiënten per taak de aangepaste gewichten weerspiegelen. Experimenten in zowel 3-taak als 9-taak settings tonen aan dat MT-GRPO consistent beter presteert dan baseline-methoden wat betreft nauwkeurigheid op de zwakste taak. In het bijzonder behaalt MT-GRPO een absolute verbetering van 16-28% en 6% in de prestatie op de zwakste taak ten opzichte van standaard GRPO respectievelijk DAPO, terwijl het competitieve gemiddelde nauwkeurigheid handhaaft. Bovendien heeft MT-GRPO 50% minder trainingsstappen nodig om 50% nauwkeurigheid op de zwakste taak te bereiken in de 3-taak setting, wat een aanzienlijk verbeterde efficiëntie aantoont in het bereiken van betrouwbare prestaties over taken heen.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.
PDF65February 7, 2026