GRPO Multi-Task: Ragionamento Affidabile dei Modelli Linguistici su Compiti Diversificati

Abstract

L'addestramento post-allenamento basato su RL con GRPO è ampiamente utilizzato per migliorare i grandi modelli linguistici su singoli compiti di ragionamento. Tuttavia, l'implementazione nel mondo reale richiede prestazioni affidabili su diversi compiti. Un semplice adattamento multi-task del GRPO porta spesso a risultati squilibrati, con alcuni compiti che dominano l'ottimizzazione mentre altri ristagnano. Inoltre, i compiti possono variare notevolmente nella frequenza con cui i prompt producono vantaggi nulli (e quindi gradienti nulli), il che distorce ulteriormente il loro contributo effettivo al segnale di ottimizzazione. Per affrontare questi problemi, proponiamo un nuovo algoritmo Multi-Task GRPO (MT-GRPO) che (i) adatta dinamicamente i pesi dei compiti per ottimizzare esplicitamente le prestazioni del compito peggiore e promuovere progressi equilibrati tra i compiti, e (ii) introduce un campionatore che preserva i rapporti per garantire che i gradienti delle politiche specifici per compito riflettano i pesi adattati. Esperimenti su configurazioni sia a 3 che a 9 compiti mostrano che MT-GRPO supera costantemente i metodi di riferimento nell'accuratezza del compito peggiore. In particolare, MT-GRPO ottiene un miglioramento assoluto del 16-28% e del 6% sulle prestazioni del compito peggiore rispetto, rispettivamente, a GRPO standard e DAPO, mantenendo al contempo un'accuratezza media competitiva. Inoltre, MT-GRPO richiede il 50% in meno di passi di addestramento per raggiungere il 50% di accuratezza sul compito peggiore nella configurazione a 3 compiti, dimostrando un'efficienza notevolmente migliorata nel raggiungere prestazioni affidabili su tutti i compiti.

English

RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.

GRPO Multi-Task: Ragionamento Affidabile dei Modelli Linguistici su Compiti Diversificati

Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

Abstract

Support