Aprendizagem por Reforço Colaborativa Multiagente em Tempo de Teste para Raciocínio

Resumo

Os sistemas multiagente evoluíram para colaboradores práticos baseados em LLM para muitas aplicações, ganhando robustez através da diversidade e verificação cruzada. No entanto, o treinamento de RL multiagente (MARL) é intensivo em recursos e instável: a co-adaptação de membros da equipe induz não estacionariedade, e as recompensas são frequentemente esparsas e de alta variância. Portanto, introduzimos o Reforço de Aprendizagem em Tempo de Teste Multiagente (MATTRL), uma estrutura que injeta experiência textual estruturada na deliberação multiagente no momento da inferência. O MATTRL forma uma equipe multi-especialista de especialistas para discussões multi-turno, recupera e integra experiências em tempo de teste e alcança consenso para a tomada de decisão final. Também estudamos a atribuição de crédito para construir um pool de experiências em nível de turno, reinserindo-o depois no diálogo. Em benchmarks desafiadores nas áreas de medicina, matemática e educação, o MATTRL melhora a precisão em média 3,67% em relação a uma linha de base multiagente e em 8,67% sobre linhas de base de agente único comparáveis. Estudos de ablação examinam diferentes esquemas de atribuição de crédito e fornecem uma comparação detalhada de como eles afetam os resultados do treinamento. O MATTRL oferece um caminho estável, eficaz e eficiente para o raciocínio multiagente robusto a mudanças de distribuição sem ajuste.

English

Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.

Aprendizagem por Reforço Colaborativa Multiagente em Tempo de Teste para Raciocínio

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Resumo

Support