Dott. MAS: Apprendimento per Rinforzo Stabile per Sistemi Multi-Agente basati su LLM

Abstract

I sistemi multi-agente basati su LLM abilitano ragionamenti avanzati e l'uso di strumenti attraverso la specializzazione dei ruoli, eppure l'addestramento post-allenamento affidabile con apprendimento per rinforzo (RL) per tali sistemi rimane difficile. In questo lavoro, identifichiamo teoricamente una ragione chiave dell'instabilità dell'addestramento quando si estende l'RL basato su gruppi ai sistemi multi-agente LLM. Dimostriamo che, sotto un'ottimizzazione di tipo GRPO, un baseline di normalizzazione globale può discostarsi dalle distribuzioni di ricompensa di agenti diversi, il che alla fine porta a un'instabilità della norma del gradiente. Sulla base di questa scoperta, proponiamo Dr. MAS, una ricetta di addestramento RL semplice e stabile per sistemi multi-agente LLM. Dr. MAS utilizza un rimedio per singolo agente: normalizza i vantaggi per agente utilizzando le statistiche di ricompensa di ciascun agente, il quale calibra le scale del gradiente e stabilizza notevolmente l'addestramento, sia teoricamente che empiricamente. Oltre all'algoritmo, Dr. MAS fornisce un framework di addestramento RL end-to-end per sistemi multi-agente LLM, supportando un'orchestrazione scalabile, configurazioni flessibili di servizio e ottimizzazione LLM per agente e una pianificazione condivisa delle risorse per i backend degli attori LLM. Valutiamo Dr. MAS su benchmark di ragionamento matematico multi-agente e di ricerca multi-turno utilizzando i modelli delle serie Qwen2.5 e Qwen3. Dr. MAS ottiene miglioramenti evidenti rispetto al GRPO vanilla (ad esempio, +5.6% avg@16 e +4.6% pass@16 sul matematica, e +15.2% avg@16 e +13.1% pass@16 sulla ricerca) eliminando al contempo in larga misura i picchi di gradiente. Inoltre, rimane altamente efficace anche con assegnazioni eterogenee di modelli-agente, migliorando al contempo l'efficienza.

English

Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.

Dott. MAS: Apprendimento per Rinforzo Stabile per Sistemi Multi-Agente basati su LLM

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Abstract

Support