MEMO: Geheugen-augmented Model Context Optimalisatie voor Robuuste Multi-Turn Multi-Agent LLM Spelen

Samenvatting

Evaluaties van multi-turn, multi-agent LLM-spellen vertonen vaak aanzienlijke run-to-run variantie. In interacties met een lange tijdsduur stapelen kleine afwijkingen in een vroeg stadium zich op over de beurten heen en worden ze versterkt door de multi-agent koppeling. Dit vertekent de schattingen van winstpercentages en maakt rankings onbetrouwbaar bij herhaalde toernooien. De keuze van prompts verergert dit verder door verschillende effectieve beleidsregels te produceren. Wij pakken zowel instabiliteit als ondermaatse prestaties aan met MEMO (Memory-augmented MOdel context optimization), een self-play raamwerk dat de context tijdens inferentie optimaliseert door retentie en exploratie te koppelen. Retentie handhaaft een permanent geheugenbankje dat gestructureerde inzichten uit self-play trajecten opslaat en deze injecteert als prior kennis tijdens later spel. Exploratie voert promptevolutie in toernooistijl uit met onzekerheidsbewuste selectie via TrueSkill, en gebruikt geprioriteerde herhaling om zeldzame en beslissende staten opnieuw te bezoeken. Over vijf tekstgebaseerde spellen verhoogt MEMO het gemiddelde winstpercentage van 25,1% naar 49,5% voor GPT-4o-mini en van 20,9% naar 44,3% voor Qwen-2.5-7B-Instruct, met gebruik van 2.000 self-play spellen per taak. De run-to-run variantie daalt ook, wat stabielere rankings oplevert over verschillende promptvariaties. Deze resultaten suggereren dat de prestaties en robuustheid van multi-agent LLM-spellen aanzienlijke ruimte voor verbetering hebben door contextoptimalisatie. MEMO behaalt de grootste winsten in onderhandelingsspellen en spellen met imperfecte informatie, terwijl RL effectiever blijft in settings met perfecte informatie.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

MEMO: Geheugen-augmented Model Context Optimalisatie voor Robuuste Multi-Turn Multi-Agent LLM Spelen

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Samenvatting

Support