ChatPaper.aiChatPaper

추론을 위한 협력형 다중 에이전트 테스트 시간 강화 학습

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

January 14, 2026
저자: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI

초록

다중 에이전트 시스템은 다양성과 상호 검증을 통해 견고성을 얻어 많은 애플리케이션에서 실용적인 LLM 기반 협업자로 진화했습니다. 그러나 다중 에이전트 강화학습(MARL) 훈련은 리소스 집약적이고 불안정합니다. 팀원들의 공동 적응은 비정상성을 유발하며, 보상은 희소하고 분산이 큰 경우가 많습니다. 따라서 본 논문에서는 추론 시점에 구조화된 텍스트 경험을 다중 에이전트 의사 결정 과정에 주입하는 프레임워크인 MATTRL(Multi-Agent Test-Time Reinforcement Learning)을 소개합니다. MATTRL은 다중 턴 토론을 위한 전문가 다중 전문가 팀을 구성하고, 테스트 타임 경험을 검색 및 통합하며, 최종 의사 결정을 위한 합의에 도달합니다. 또한 턴 단위 경험 풀을 구축하고 이를 대화에 재주입하기 위한 신용 할당 방법을 연구합니다. 의학, 수학, 교육 분야의 도전적인 벤치마크에서 MATTRL은 다중 에이전트 기준선보다 평균 3.67%, 유사한 단일 에이전트 기준선보다 8.67% 정확도를 향상시켰습니다. 제거 연구를 통해 다양한 신용 할당 방식을 검토하고 이들이 훈련 결과에 미치는 영향을 상세히 비교합니다. MATTRL은 튜닝 없이도 분포 변화에 강건한 다중 에이전트 추론을 위한 안정적이고 효과적이며 효율적인 경로를 제공합니다.
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.
PDF633January 17, 2026