Aprendizagem por Reforço Colaborativa Multiagente em Tempo de Teste para Raciocínio
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
January 14, 2026
Autores: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI
Resumo
Os sistemas multiagente evoluíram para colaboradores práticos baseados em LLM para muitas aplicações, ganhando robustez através da diversidade e verificação cruzada. No entanto, o treinamento de RL multiagente (MARL) é intensivo em recursos e instável: a co-adaptação de membros da equipe induz não estacionariedade, e as recompensas são frequentemente esparsas e de alta variância. Portanto, introduzimos o Reforço de Aprendizagem em Tempo de Teste Multiagente (MATTRL), uma estrutura que injeta experiência textual estruturada na deliberação multiagente no momento da inferência. O MATTRL forma uma equipe multi-especialista de especialistas para discussões multi-turno, recupera e integra experiências em tempo de teste e alcança consenso para a tomada de decisão final. Também estudamos a atribuição de crédito para construir um pool de experiências em nível de turno, reinserindo-o depois no diálogo. Em benchmarks desafiadores nas áreas de medicina, matemática e educação, o MATTRL melhora a precisão em média 3,67% em relação a uma linha de base multiagente e em 8,67% sobre linhas de base de agente único comparáveis. Estudos de ablação examinam diferentes esquemas de atribuição de crédito e fornecem uma comparação detalhada de como eles afetam os resultados do treinamento. O MATTRL oferece um caminho estável, eficaz e eficiente para o raciocínio multiagente robusto a mudanças de distribuição sem ajuste.
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.