ChatPaper.aiChatPaper

マルチタスクGRPO:タスク横断的な信頼性の高いLLM推論

Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

February 5, 2026
著者: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI

要旨

RLベースの事後学習手法であるGRPOは、個別の推論タスクにおいて大規模言語モデルを改善するために広く用いられている。しかし、実世界での運用には、多様なタスクにわたる信頼性の高い性能が求められる。GRPOを単純にマルチタスク化した場合、最適化が特定のタスクに偏り、他のタスクの改善が停滞する不均衡な結果を招くことが多い。さらに、プロンプトがゼロ利得(したがってゼロ勾配)を生み出す頻度はタスクによって大きく異なり、これが最適化信号への実質的な寄与をさらに歪めてしまう。これらの課題に対処するため、我々は新たなマルチタスクGRPO(MT-GRPO)アルゴリズムを提案する。このアルゴリズムは、(i) 動的にタスク重みを調整して最悪タスクの性能を明示的に最適化し、タスク間の均衡の取れた進捗を促進し、(ii) 調整された重みがタスク単位の方策勾配に反映されるように、比率保存型サンプラーを導入する。3タスクおよび9タスク設定での実験により、MT-GRPOが最悪タスク精度において一貫してベースライン手法を上回ることを示す。特に、標準GRPOやDAPOと比較して、MT-GRPOは最悪タスク性能においてそれぞれ16-28%、6%の絶対的な改善を達成しつつ、競争力のある平均精度を維持した。さらに、3タスク設定では、最悪タスク精度50%を達成するまでの学習ステップ数が50%削減され、タスク横断的な信頼性の高い性能達成における効率性が大幅に向上することが示された。
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.
PDF65February 7, 2026