MEMORANDO: Otimização de Contexto de Modelo Aumentado por Memória para Jogos Robústos de LLM Multiagente em Múltiplos Turnos

Resumo

As avaliações de jogos com LLMs multi-turn e multiagente frequentemente exibem uma variação substancial entre execuções. Em interações de longo horizonte, pequenos desvios iniciais se acumulam ao longo das turnos e são amplificados pelo acoplamento multiagente. Isso tendencia as estimativas de taxa de vitória e torna as classificações pouco confiáveis em torneios repetidos. A escolha do prompt agrava ainda mais este problema ao produzir políticas efetivas diferentes. Abordamos tanto a instabilidade quanto o baixo desempenho com o MEMO (MOdel context optimization aumentado por Memória), uma estrutura de auto-jogo que otimiza o contexto no momento da inferência ao acoplar retenção e exploração. A retenção mantém um banco de memória persistente que armazena *insights* estruturados das trajetórias de auto-jogo e os injeta como *priors* durante jogos posteriores. A exploração executa uma evolução de prompts no estilo torneio com seleção consciente da incerteza via TrueSkill, e usa *replay* priorizado para revisitar estados raros e decisivos. Em cinco jogos baseados em texto, o MEMO aumenta a taxa média de vitória de 25.1% para 49.5% para o GPT-4o-mini e de 20.9% para 44.3% para o Qwen-2.5-7B-Instruct, usando 2.000 jogos de auto-jogo por tarefa. A variação entre execuções também diminui, fornecendo classificações mais estáveis entre variações de prompt. Estes resultados sugerem que o desempenho e a robustez de jogos multiagente com LLMs têm espaço substancial para melhoria através da otimização de contexto. O MEMO obtém os maiores ganhos em jogos de negociação e de informação imperfeita, enquanto o RL (Aprendizado por Reforço) permanece mais eficaz em ambientes de informação perfeita.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

MEMORANDO: Otimização de Contexto de Modelo Aumentado por Memória para Jogos Robústos de LLM Multiagente em Múltiplos Turnos

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Resumo

Support