Kooperation und Ausbeutung bei der LLM-Politiksynthese für sequenzielle soziale Dilemmata

Zusammenfassung

Wir untersuchen die Synthese von LLM-Politiken: die Verwendung eines großen Sprachmodells zur iterativen Erzeugung programmatischer Agentenpolitiken für Multi-Agenten-Umgebungen. Anstatt neuronale Politiken durch bestärkendes Lernen zu trainieren, fordert unser Framework ein LLM auf, Python-Politikfunktionen zu generieren, bewertet diese im Selbstspiel und verfeinert sie über Iterationen hinweg unter Verwendung von Leistungsfeedback. Wir untersuchen das Feedback-Engineering (das Design der Bewertungsinformationen, die dem LLM während der Verfeinerung gezeigt werden) und vergleichen spärliches Feedback (nur skalarer Belohnungswert) mit dichtem Feedback (Belohnung plus soziale Metriken: Effizienz, Gleichheit, Nachhaltigkeit, Frieden). In zwei kanonischen Sequenziellen Sozialen Dilemmata (Gathering und Cleanup) und zwei fortschrittlichen LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro) übertrifft dichtes Feedback durchgängig das spärliche Feedback bei allen Metriken oder erreicht gleiche Werte. Der Vorteil ist im Cleanup-Öffentliche-Güter-Spiel am größten, wo die Bereitstellung sozialer Metriken dem LLM hilft, den kostspieligen Kompromiss zwischen Reinigen und Ernten zu kalibrieren. Soziale Metriken führen nicht zu einer Überoptimierung der Fairness, sondern dienen als Koordinationssignal, das das LLM zu effektiveren kooperativen Strategien führt, einschließlich Gebietsaufteilung, adaptiver Rollenzuweisung und der Vermeidung verschwenderischer Aggression. Wir führen weiterhin ein adversarisches Experiment durch, um zu bestimmen, ob LLMs diese Umgebungen reward-hacken können. Wir charakterisieren fünf Angriffsklassen und diskutieren Gegenmaßnahmen, wobei wir einen inherenten Zielkonflikt in der LLM-Politiksynthese zwischen Ausdrucksstärke und Sicherheit aufzeigen. Code unter https://github.com/vicgalle/llm-policies-social-dilemmas.

English

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Kooperation und Ausbeutung bei der LLM-Politiksynthese für sequenzielle soziale Dilemmata

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Zusammenfassung

Support