МЕМО: Оптимизация контекста модели с расширенной памятью для устойчивых многотуровых многопользовательских игр с большими языковыми моделями

Аннотация

Многократные оценки языковых моделей в многоходовых играх с несколькими агентами часто демонстрируют значительную вариативность от запуска к запуску. В долгосрочных взаимодействиях небольшие ранние отклонения накапливаются на протяжении ходов и усиливаются за счет связи между агентами. Это смещает оценки процента побед и делает рейтинги ненадежными при повторных турнирах. Выбор промпта усугубляет эту проблему, порождая различные эффективные политики. Мы решаем проблемы нестабильности и низкой производительности с помощью MEMO (Memory-augmented MOdel context optimization) — фреймворка самообучения, который оптимизирует контекст на этапе вывода, сочетая удержание и исследование. Удержание поддерживает постоянный банк памяти, сохраняющий структурированные инсайты из траекторий самообучения и внедряющий их в качестве априорных знаний в последующих играх. Исследование проводит эволюцию промптов в турнирном стиле с учетом неопределенности через TrueSkill и использует приоритизированное воспроизведение для повторного анализа редких и решающих состояний. В пяти текстовых играх MEMO повышает средний процент побед с 25,1% до 49,5% для GPT-4o-mini и с 20,9% до 44,3% для Qwen-2.5-7B-Instruct, используя по 2000 игр самообучения на задачу. Вариативность между запусками также снижается, обеспечивая более стабильные рейтинги при изменении промптов. Эти результаты свидетельствуют, что производительность и надежность языковых моделей в многопользовательских играх имеют значительный потенциал для улучшения через оптимизацию контекста. MEMO демонстрирует наибольший прогресс в переговорах и играх с неполной информацией, тогда как обучение с подкреплением остается более эффективным в условиях полной информации.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

МЕМО: Оптимизация контекста модели с расширенной памятью для устойчивых многотуровых многопользовательских игр с большими языковыми моделями

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Аннотация

Support