ChatPaper.aiChatPaper

Совместное многопользовательское обучение с подкреплением в тестовом времени для решения задач рассуждения

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

January 14, 2026
Авторы: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
cs.AI

Аннотация

Многоагентные системы эволюционировали в практических LLM-управляемых коллабораторов для многих приложений, обретая устойчивость за счет разнообразия и перекрестной проверки. Однако обучение с подкреплением в многоагентной среде (MARL) ресурсоемко и нестабильно: взаимная адаптация агентов порождает нестационарность, а вознаграждения часто являются разреженными и имеют высокую дисперсию. Поэтому мы представляем MATTRL — фреймворк, который внедряет структурированный текстовый опыт в процесс многоагентного принятия решений на этапе вывода. MATTRL формирует команду специалистов-экспертов для многоходовых дискуссий, извлекает и интегрирует опыт, полученный в режиме тестирования, и достигает консенсуса для финального принятия решений. Мы также исследуем распределение заслуг для построения пула опыта на уровне ходов и его последующего внедрения в диалог. На сложных тестовых наборах в областях медицины, математики и образования MATTRL повышает точность в среднем на 3,67% по сравнению с многоагентным базовым уровнем и на 8,67% по сравнению с аналогичными одноагентными базовыми уровнями. В рамках ablation-исследований анализируются различные схемы распределения заслуг и проводится детальное сравнение их влияния на результаты обучения. MATTRL предлагает стабильный, эффективный и экономичный путь к устойчивому к сдвигам распределения многоагентному мышлению без необходимости тонкой настройки.
English
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.
PDF633January 17, 2026