Cooperazione e Sfruttamento nella Sintesi di Politiche per LLM nei Dilemmi Sociali Sequenziali

Abstract

Studiamo la sintesi di politiche tramite LLM: l'utilizzo di un grande modello linguistico per generare iterativamente politiche agente programmatiche per ambienti multi-agente. Invece di addestrare politiche neurali tramite apprendimento per rinforzo, il nostro framework sollecita un LLM a produrre funzioni di politica in Python, le valuta in self-play e le affina utilizzando il feedback sulle prestazioni attraverso le iterazioni. Investigiamo l'ingegneria del feedback (la progettazione di quali informazioni valutative vengono mostrate all'LLM durante l'affinamento) confrontando il feedback sparso (solo ricompensa scalare) con il feedback denso (ricompensa più metriche sociali: efficienza, equità, sostenibilità, pace). In due Dilemmi Sociali Sequenziali canonici (Gathering e Cleanup) e due LLM all'avanguardia (Claude Sonnet 4.6, Gemini 3.1 Pro), il feedback denso eguaglia o supera costantemente quello sparso su tutte le metriche. Il vantaggio è maggiore nel gioco dei beni pubblici Cleanup, dove fornire metriche sociali aiuta l'LLM a calibrare il costoso tradeoff tra pulizia e raccolta. Piuttosto che innescare un'over-ottimizzazione dell'equità, le metriche sociali fungono da segnale di coordinamento che guida l'LLM verso strategie cooperative più efficaci, inclusa la suddivisione del territorio, l'assegnazione adattiva dei ruoli e l'evitamento di aggressioni dispendiose. Eseguiamo inoltre un esperimento avversario per determinare se gli LLM possono manipolare le ricompense in questi ambienti. Caratterizziamo cinque classi di attacco e discutiamo le mitigazioni, evidenziando una tensione intrinseca nella sintesi di politiche tramite LLM tra espressività e sicurezza. Codice disponibile su https://github.com/vicgalle/llm-policies-social-dilemmas.

English

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Cooperazione e Sfruttamento nella Sintesi di Politiche per LLM nei Dilemmi Sociali Sequenziali

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Abstract

Support