Kollaboratives Multi-Agenten-Testzeit-Verstärkungslernen für Reasoning
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
January 14, 2026
papers.authors: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI
papers.abstract
Multi-Agent-Systeme haben sich zu praktischen, LLM-gesteuerten Kollaborateuren für viele Anwendungen entwickelt und gewinnen Robustheit durch Diversität und gegenseitige Überprüfung. Allerdings ist das Training von Multi-Agent Reinforcement Learning (MARL) ressourcenintensiv und instabil: die Koanpassung von Teammitgliedern führt zu Nicht-Stationarität, und Belohnungssignale sind oft spärlich und hochvarianz. Daher führen wir Multi-Agent Test-Time Reinforcement Learning (MATTRL) ein, ein Framework, das strukturierte textuelle Erfahrung zur Inferenzzeit in die Deliberation mehrerer Agenten einbringt. MATTRL bildet ein Multi-Experten-Team von Spezialisten für mehrstufige Diskussionen, ruft Testzeit-Erfahrungen ab und integriert sie und erzielt einen Konsens für die endgültige Entscheidungsfindung. Wir untersuchen auch Credit Assignment für den Aufbau eines erfahrungsbasierten Pools auf Turn-Ebene, um diese anschließend wieder in den Dialog einzuspeisen. In anspruchsvollen Benchmarks aus den Bereichen Medizin, Mathematik und Bildung verbessert MATTRL die Genauigkeit im Durchschnitt um 3,67 % gegenüber einer Multi-Agent-Baseline und um 8,67 % gegenüber vergleichbaren Single-Agent-Baselines. Ablationsstudien untersuchen verschiedene Credit-Assignment-Schemata und bieten einen detaillierten Vergleich ihrer Auswirkungen auf die Trainingsergebnisse. MATTRL bietet einen stabilen, effektiven und effizienten Weg zu distributionsverschiebungsrobustem Multi-Agenten-Reasoning ohne Anpassung der Parameter.
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.