Collaboratieve Multi-Agent Test-Tijd Versterkingsleren voor Redeneren

Samenvatting

Multi-agent systemen zijn geëvolueerd tot praktische, door LLM aangedreven samenwerkingspartners voor vele toepassingen, waarbij ze robuustheid verkrijgen door diversiteit en onderlinge controle. Echter, multi-agent RL (MARL) training is resource-intensief en instabiel: het co-adaptatieproces van teamleden veroorzaakt non-stationariteit, en beloningen zijn vaak schaars en hebben een hoge variantie. Daarom introduceren wij Multi-Agent Test-Time Reinforcement Learning (MATTRL), een raamwerk dat gestructureerde tekstuele ervaring injecteert in de beraadslaging van multi-agent systemen tijdens de inferentiefase. MATTRL vormt een multi-expertteam van specialisten voor meerronde discussies, haalt testtijd-ervaringen op en integreert deze, en bereikt consensus voor uiteindelijke besluitvorming. Wij bestuderen ook credit assignment voor het opbouwen van een ervaringspool op rondeniveau, om deze vervolgens opnieuw in de dialoog te injecteren. Over uitdagende benchmarks in de geneeskunde, wiskunde en onderwijs verbetert MATTRL de nauwkeurigheid met gemiddeld 3,67% ten opzichte van een multi-agent baseline, en met 8,67% ten opzichte van vergelijkbare single-agent baselines. Ablatiestudies onderzoeken verschillende credit-assignmentschema's en bieden een gedetailleerde vergelijking van hoe deze de trainingsresultaten beïnvloeden. MATTRL biedt een stabiel, effectief en efficiënt pad naar distributieverschuiving-robuuste multi-agent redenering zonder afstemming.

English

Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce Multi-Agent Test-Time Reinforcement Learning (MATTRL), a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.

Collaboratieve Multi-Agent Test-Tijd Versterkingsleren voor Redeneren

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Samenvatting

Support