MEMORÁNDUM: Optimización de Contexto de Modelos Aumentados con Memoria para Juegos Robustos de Múltiples Turnos con Múltiples Agentes de LLM

Resumen

Las evaluaciones de juegos con LLM multiagente y multiturno a menudo presentan una varianza sustancial entre ejecuciones. En interacciones de horizonte largo, las pequeñas desviaciones iniciales se acumulan a lo largo de los turnos y se amplifican debido al acoplamiento multiagente. Esto sesga las estimaciones de la tasa de victorias y hace que las clasificaciones sean poco fiables en torneos repetidos. La elección del *prompt* empeora aún más esta situación al producir políticas efectivas diferentes. Abordamos tanto la inestabilidad como el bajo rendimiento con MEMO (Optimización de contexto de modelo aumentado con memoria), un marco de autojuego que optimiza el contexto en tiempo de inferencia mediante el acoplamiento de retención y exploración. La retención mantiene un banco de memoria persistente que almacena percepciones estructuradas de las trayectorias de autojuego y las inyecta como *priors* durante partidas posteriores. La exploración ejecuta una evolución de *prompts* estilo torneo con selección consciente de la incertidumbre mediante TrueSkill, y utiliza *replay* prioritario para revisitar estados decisivos y poco frecuentes. En cinco juegos basados en texto, MEMO aumenta la tasa media de victorias del 25.1% al 49.5% para GPT-4o-mini y del 20.9% al 44.3% para Qwen-2.5-7B-Instruct, utilizando 2,000 juegos de autojuego por tarea. La varianza entre ejecuciones también disminuye, proporcionando clasificaciones más estables frente a variaciones de *prompts*. Estos resultados sugieren que el rendimiento y la robustez de los juegos multiagente con LLM tienen un margen de mejora sustancial mediante la optimización del contexto. MEMO logra las mayores mejoras en juegos de negociación y de información imperfecta, mientras que el aprendizaje por refuerzo sigue siendo más efectivo en entornos de información perfecta.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

MEMORÁNDUM: Optimización de Contexto de Modelos Aumentados con Memoria para Juegos Robustos de Múltiples Turnos con Múltiples Agentes de LLM

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Resumen

Support