Apprendimento per Rinforzo Multi-Agente Collaborativo in Fase di Test per il Ragionamento

Abstract

I sistemi multi-agente si sono evoluti in collaboratori pratici guidati da LLM per molte applicazioni, acquisendo robustezza grazie alla diversità e al controllo incrociato. Tuttavia, l'addestramento RL multi-agente (MARL) è dispendioso in termini di risorse e instabile: la co-adattazione dei membri del team induce non stazionarietà, e le ricompense sono spesso sparse e ad alta varianza. Pertanto, introduciamo il Reinforcement Learning Multi-Agente al Tempo di Test (MATTRL), un framework che inietta esperienza testuale strutturata nella deliberazione multi-agente al momento dell'inferenza. MATTRL forma un team multi-esperto di specialisti per discussioni multi-turno, recupera e integra esperienze al tempo di test, e raggiunge un consenso per il processo decisionale finale. Studiamo anche l'assegnazione del merito per costruire un pool di esperienze a livello di turno, per poi reiniettarle nel dialogo. Su benchmark impegnativi in medicina, matematica e educazione, MATTRL migliora l'accuratezza in media del 3,67% rispetto a una baseline multi-agente, e dell'8,67% rispetto a baseline single-agente comparabili. Studi di ablazione esaminano diversi schemi di assegnazione del merito e forniscono un confronto dettagliato di come questi influenzano i risultati dell'addestramento. MATTRL offre un percorso stabile, efficace ed efficiente per un ragionamento multi-agente robusto allo shift di distribuzione senza necessità di tuning.

English

Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.

Apprendimento per Rinforzo Multi-Agente Collaborativo in Fase di Test per il Ragionamento

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Abstract

Support