ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Colaborativo Multiagente en Tiempo de Prueba para el Razonamiento

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

January 14, 2026
Autores: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI

Resumen

Los sistemas multiagente han evolucionado hacia colaboradores prácticos impulsados por LLM para muchas aplicaciones, ganando robustez gracias a la diversidad y la verificación cruzada. Sin embargo, el entrenamiento de aprendizaje por refuerzo multiagente (MARL) es intensivo en recursos e inestable: la co-adaptación de los agentes induce no estacionariedad, y las recompensas suelen ser escasas y de alta varianza. Por lo tanto, presentamos el Aprendizaje por Refuerzo Multiagente en Tiempo de Prueba (MATTRL), un marco que inyecta experiencia textual estructurada en la deliberación multiagente durante la inferencia. MATTRL forma un equipo multi-experto de especialistas para discusiones multiturno, recupera e integra experiencias en tiempo de prueba y alcanza un consenso para la toma de decisiones final. También estudiamos la asignación de crédito para construir un grupo de experiencias a nivel de turno, reintegrándolo posteriormente en el diálogo. En diversos benchmarks desafiantes de medicina, matemáticas y educación, MATTRL mejora la precisión en un promedio de 3.67% sobre una línea base multiagente y en un 8.67% sobre líneas base monoagente comparables. Los estudios de ablación examinan diferentes esquemas de asignación de crédito y proporcionan una comparación detallada de cómo afectan a los resultados del entrenamiento. MATTRL ofrece una ruta estable, efectiva y eficiente hacia el razonamiento multiagente robusto frente a cambios de distribución sin necesidad de ajuste.
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.
PDF633January 17, 2026