推論のための協調的マルチエージェントテスト時強化学習
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
January 14, 2026
著者: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI
要旨
マルチエージェントシステムは、多様性と相互検証による堅牢性を獲得し、多くの応用分野で実用的なLLM駆動の協調システムへと進化を遂げています。しかし、マルチエージェント強化学習(MARL)の訓練はリソース集約的で不安定です。チームメンバーの相互適応が非定常性を誘発し、報酬は疎で分散が大きいことが多いためです。そこで我々は、推論時に構造化されたテキスト経験をマルチエージェントの審議に注入するフレームワーク「Multi-Agent Test-Time Reinforcement Learning(MATTRL)」を提案します。MATTRLは、多段階議論のための専門家によるマルチエキスパートチームを形成し、テスト時経験を検索・統合し、最終意思決定のための合意形成を行います。また、ターンレベルの経験プールを構築し、それを対話に再注入するための信用割り当てについても検討します。医療、数学、教育における難易度の高いベンチマークで、MATTRLはマルチエージェントベースラインより平均3.67%、単一エージェントの同等ベースラインより8.67%精度を向上させました。アブレーション研究では、異なる信用割り当てスキームを検証し、それらが訓練結果に与える影響を詳細に比較しています。MATTRLは、チューニングなしで分布シフトに強いマルチエージェント推論を実現する、安定かつ効率的な手法を提供します。
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.