다중 작업 GRPO: 다양한 작업에서 신뢰할 수 있는 LLM 추론
Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
February 5, 2026
저자: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI
초록
GRPO 기반 강화학습 사후 훈련은 개별 추론 과제에서 대규모 언어 모델의 성능을 향상시키기 위해 널리 사용됩니다. 그러나 실제 환경에서의 적용에는 다양한 과제에 걸쳐 안정적인 성능이 요구됩니다. GRPO의 단순한 다중 과제 적용은 종종 불균형한 결과를 초래하며, 일부 과제가 최적화를 지배하는 반면 다른 과제는 정체되는 현상이 발생합니다. 더욱이 과제별로 프롬프트가 zero advantage(따라서 zero gradient)를 생성하는 빈도가 크게 다를 수 있으며, 이는 최적화 신호에 대한 각 과제의 실질적 기여도를 추가로 왜곡합니다. 이러한 문제를 해결하기 위해 우리는 (i) 최악의 과제 성능을 명시적으로 최적화하고 과제 간 균형 잡힌 진전을 촉진하기 위해 과제 가중치를 동적으로 조정하며, (ii) 조정된 가중치가 과제별 정책 그래디언트에 반영되도록 비율 보존 샘플러를 도입하는 새로운 다중 과제 GRPO(MT-GRPO) 알고리즘을 제안합니다. 3-과제 및 9-과제 설정에서의 실험 결과, MT-GRPO가 최악의 과제 정확도 측면에서 기준 방법들을 지속적으로 능가하는 것으로 나타났습니다. 특히 MT-GRPO는 기준 GRPO 및 DAPO 대비 최악의 과제 성능에서 각각 16-28%, 6%의 절대적 개선을 달성하면서도 경쟁력 있는 평균 정확도를 유지했습니다. 또한 3-과제 설정에서 최악의 과제 정확도 50% 달성에 필요한 훈련 단계가 50% 감소하여, 과제 전반에 걸쳐 신뢰할 수 있는 성능을 달성하는 효율성이 크게 개선되었음을 입증했습니다.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.