ChatPaper.aiChatPaper

GRPO Multitarefa: Raciocínio Confiável de LLMs em Diferentes Tarefas

Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

February 5, 2026
Autores: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI

Resumo

O pós-treinamento baseado em RL com GRPO é amplamente utilizado para melhorar modelos de linguagem grandes em tarefas de raciocínio individuais. No entanto, a implantação no mundo real exige desempenho confiável em diversas tarefas. Uma adaptação multitarefa direta do GRPO frequentemente leva a resultados desequilibrados, com algumas tarefas dominando a otimização enquanto outras estagnam. Além disso, as tarefas podem variar amplamente na frequência com que os *prompts* geram vantagens zero (e, portanto, gradientes zero), o que distorce ainda mais sua contribuição efetiva para o sinal de otimização. Para resolver esses problemas, propomos um novo algoritmo GRPO Multitarefa (MT-GRPO) que (i) adapta dinamicamente os pesos das tarefas para otimizar explicitamente o desempenho da pior tarefa e promover progresso equilibrado entre as tarefas, e (ii) introduz um amostrador que preserva proporções para garantir que os gradientes da política por tarefa reflitam os pesos adaptados. Experimentos em configurações de 3 e 9 tarefas mostram que o MT-GRPO supera consistentemente as *baselines* na precisão da pior tarefa. Em particular, o MT-GRPO alcança uma melhoria absoluta de 16-28% e 6% no desempenho da pior tarefa em relação ao GRPO padrão e ao DAPO, respectivamente, mantendo uma precisão média competitiva. Além disso, o MT-GRPO requer 50% menos etapas de treinamento para atingir 50% de precisão na pior tarefa na configuração de 3 tarefas, demonstrando eficiência substancialmente melhorada para alcançar desempenho confiável entre tarefas.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.
PDF75February 7, 2026