MEMO: Ottimizzazione del Contesto del Modello Aumentato con Memoria per Giochi Robusti Multi-Turno con Agenti Multipli basati su LLM

Abstract

Le valutazioni multi-turno e multi-agente per i LLM presentano spesso una sostanziale variabilità tra esecuzioni consecutive. Nelle interazioni a lungo termine, piccole deviazioni iniziali si accumulano attraverso i turni e vengono amplificate dall'accoppiamento multi-agente. Ciò distorce le stime del tasso di vittoria e rende inaffidabili le classifiche tra tornei ripetuti. La scelta del prompt peggiora ulteriormente questa situazione producendo politiche effettive diverse. Affrontiamo sia l'instabilità che le prestazioni insufficienti con MEMO (Memory-augmented MOdel context optimization), un framework di auto-gioco che ottimizza il contesto al momento dell'inferenza accoppiando ritenzione ed esplorazione. La ritenzione mantiene una memoria persistente che archivia insight strutturati dalle traiettorie di auto-gioco e li inietta come prior durante le sessioni successive. L'esplorazione esegue un'evoluzione dei prompt in stile torneo con selezione consapevole dell'incertezza tramite TrueSkill, e utilizza il replay prioritizzato per rivisitare stati decisivi e rari. In cinque giochi testuali, MEMO aumenta il tasso di vittoria medio dal 25.1% al 49.5% per GPT-4o-mini e dal 20.9% al 44.3% per Qwen-2.5-7B-Instruct, utilizzando 2.000 partite di auto-gioco per task. Anche la variabilità tra esecuzioni diminuisce, fornendo classifiche più stabili tra le variazioni di prompt. Questi risultati suggeriscono che le prestazioni e la robustezza dei LLM in giochi multi-agente hanno ampio margine di miglioramento attraverso l'ottimizzazione del contesto. MEMO ottiene i maggiori guadagni in giochi di negoziazione e ad informazione imperfetta, mentre il RL rimane più efficace in contesti ad informazione perfetta.

English

Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using 2,000 self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.

MEMO: Ottimizzazione del Contesto del Modello Aumentato con Memoria per Giochi Robusti Multi-Turno con Agenti Multipli basati su LLM

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Abstract

Support