MEMO: Speichererweiterte Modellkontextoptimierung für robuste Multi-Turn-Multi-Agenten-LLM-Spiele

Zusammenfassung

Mehrfachdurchläufe von Multi-Agenten-Spielevaluierungen mit großen Sprachmodellen zeigen oft erhebliche Varianz zwischen den Durchgängen. In langen Interaktionshorizonten potenzieren sich kleine anfängliche Abweichungen über die Spielzüge hinweg und werden durch die Multi-Agenten-Kopplung verstärkt. Dies verzerrt die Schätzung der Gewinnraten und macht Ranglisten über wiederholte Turniere hinweg unzuverlässig. Die Wahl der Prompts verschärft dieses Problem zusätzlich, indem sie unterschiedliche effektive Strategien erzeugt. Wir adressieren sowohl Instabilität als auch unzureichende Leistung mit MEMO (Memory-augmented MOdel context optimization), einem Selbstspiel-Framework, das den Inferenz-Kontext durch die Kopplung von Beibehaltung und Exploration optimiert. Die Beibehaltung verwaltet einen persistenten Speicher, der strukturierte Erkenntnisse aus Selbstspiel-Pfaden speichert und diese als Priors in späteren Spielen injiziert. Die Exploration führt eine turnierbasierte Prompt-Evolution mit unsicherheitsbewusster Selektion via TrueSkill durch und nutzt priorisiertes Replay, um seltene und entscheidende Zustände erneut zu besuchen. Über fünf textbasierte Spiele hinweg steigert MEMO die durchschnittliche Gewinnrate von GPT-4o-mini von 25,1 % auf 49,5 % und von Qwen-2.5-7B-Instruct von 20,9 % auf 44,3 % bei 2.000 Selbstspielen pro Aufgabe. Die Lauf-zu-Lauf-Varianz sinkt ebenfalls, was zu stabileren Ranglisten über Prompt-Variationen hinweg führt. Diese Ergebnisse deuten darauf hin, dass die Leistung und Robustheit von Multi-Agenten-Spielen mit großen Sprachmodellen durch Kontextoptimierung erheblich verbessert werden kann. MEMO erzielt die größten Gewinne in Verhandlungs- und Imperfect-Information-Spielen, während Reinforcement-Learning in Perfect-Information-Szenarien effektiver bleibt.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

MEMO: Speichererweiterte Modellkontextoptimierung für robuste Multi-Turn-Multi-Agenten-LLM-Spiele

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Zusammenfassung

Support