Apprentissage par Renforcement Multi-Agent Collaboratif en Temps de Test pour le Raisonnement
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
January 14, 2026
papers.authors: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI
papers.abstract
Les systèmes multi-agents ont évolué pour devenir des collaborateurs pratiques pilotés par des LLM pour de nombreuses applications, gagnant en robustesse grâce à la diversité et à la vérification croisée. Cependant, l'apprentissage par renforcement multi-agent (MARL) est coûteux en ressources et instable : la co-adaptation des équipes induit une non-stationnarité, et les récompenses sont souvent rares et à forte variance. Par conséquent, nous introduisons l'apprentissage par renforcement multi-agent au moment du test (MATTRL), un cadre qui injecte une expérience textuelle structurée dans la délibération multi-agent lors de l'inférence. MATTRL forme une équipe multi-experts de spécialistes pour des discussions multi-tours, récupère et intègre des expériences en temps de test, et atteint un consensus pour la prise de décision finale. Nous étudions également l'attribution de crédit pour construire un pool d'expériences au niveau des tours, puis le réinjecter dans le dialogue. Sur des benchmarks exigeants en médecine, mathématiques et éducation, MATTRL améliore la précision de 3,67 % en moyenne par rapport à une base multi-agent, et de 8,67 % par rapport à des bases mono-agent comparables. Des études d'ablation examinent différents schémas d'attribution de crédit et fournissent une comparaison détaillée de leur impact sur les résultats d'entraînement. MATTRL offre une voie stable, efficace et efficiente vers un raisonnement multi-agent robuste aux décalages de distribution sans réglage.
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.