ChatPaper.aiChatPaper

Многозадачный GRPO: Надежные рассуждения больших языковых моделей для различных задач

Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

February 5, 2026
Авторы: Shyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
cs.AI

Аннотация

Посттренировка на основе обучения с подкреплением (RL) с использованием GRPO широко применяется для улучшения больших языковых моделей при решении отдельных задач на рассуждение. Однако реальное развертывание требует стабильной работы на разнообразных задачах. Прямая адаптация GRPO для многозадачного обучения часто приводит к несбалансированным результатам: одни задачи доминируют в оптимизации, в то время как прогресс других останавливается. Более того, задачи могут сильно различаться по частоте, с которой промпты дают нулевое преимущество (и, следовательно, нулевые градиенты), что дополнительно искажает их эффективный вклад в сигнал оптимизации. Для решения этих проблем мы предлагаем новый алгоритм Multi-Task GRPO (MT-GRPO), который (i) динамически адаптирует веса задач для явной оптимизации наихудшего результата и обеспечения сбалансированного прогресса по всем задачам и (ii) вводит сохраняющий соотношения сэмплер, чтобы гарантировать, что градиенты политики для каждой задачи отражают адаптированные веса. Эксперименты в условиях 3-х и 9-ти задач показывают, что MT-GRPO стабильно превосходит базовые методы по точности на наихудшей задаче. В частности, MT-GRPO демонстрирует абсолютное улучшение показателя наихудшей задачи на 16–28% и 6% по сравнению со стандартным GRPO и DAPO соответственно, сохраняя при этом конкурентоспособную среднюю точность. Более того, в условиях 3-х задач MT-GRPO требует на 50% меньше шагов обучения для достижения 50% точности на наихудшей задаче, что свидетельствует о существенно повышенной эффективности в достижении надежной производительности across tasks.
English
RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.
PDF64February 7, 2026