MÉMO : Optimisation du Contexte de Modèle Augmenté par Mémoire pour des Jeux Multi-Agents Multi-Tours Robuste avec des LLM

Résumé

Les évaluations de jeux multi-tours et multi-agents par LLM présentent souvent une variance importante d'une exécution à l'autre. Dans les interactions à long terme, de petites déviations initiales s'amplifient de manière cumulative à travers les tours et sont exacerbées par le couplage multi-agent. Cela biaise les estimations du taux de victoire et rend les classements peu fiables sur des tournois répétés. Le choix des prompts aggrave ce problème en produisant des politiques effectives différentes. Nous abordons à la fois l'instabilité et la sous-performance avec MEMO (MOdel context optimization augmenté par la mémoire), un cadre d'auto-joueur qui optimise le contexte au moment de l'inférence en couplant rétention et exploration. La rétention maintient une banque de mémoire persistante qui stocke des insights structurés issus des trajectoires d'auto-jeu et les injecte comme priors lors des parties ultérieures. L'exploration exécute une évolution de prompts de type tournoi avec une sélection tenant compte de l'incertitude via TrueSkill, et utilise un rejeu prioritaire pour revisiter des états rares et décisifs. Sur cinq jeux textuels, MEMO augmente le taux de victoire moyen de 25,1% à 49,5% pour GPT-4o-mini et de 20,9% à 44,3% pour Qwen-2.5-7B-Instruct, en utilisant 2 000 parties d'auto-jeu par tâche. La variance d'une exécution à l'autre diminue également, produisant des classements plus stables across les variations de prompts. Ces résultats suggèrent que les performances et la robustesse des LLM dans les jeux multi-agents ont une marge d'amélioration substantielle grâce à l'optimisation du contexte. MEMO obtient les gains les plus importants dans les jeux de négociation et à information imparfaite, tandis que l'apprentissage par renforcement reste plus efficace dans les environnements à information parfaite.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

MÉMO : Optimisation du Contexte de Modèle Augmenté par Mémoire pour des Jeux Multi-Agents Multi-Tours Robuste avec des LLM

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Résumé

Support