Coopération et Exploitation dans la Synthèse de Politiques pour les LLM Appliqués aux Dilemmes Sociaux Séquentiels

Résumé

Nous étudions la synthèse de politiques par LLM : l'utilisation d'un grand modèle de langage pour générer itérativement des politiques d'agents programmatiques dans des environnements multi-agents. Plutôt que d'entraîner des politiques neuronales par apprentissage par renforcement, notre framework sollicite un LLM pour produire des fonctions de politique en Python, les évalue en autoplay et les affine en utilisant les retours de performance sur plusieurs itérations. Nous étudions l'ingénierie du feedback (la conception des informations d'évaluation présentées au LLM lors de l'affinage) en comparant un feedback sparse (récompense scalaire uniquement) à un feedback dense (récompense plus des métriques sociales : efficacité, égalité, durabilité, paix). Sur deux dilemmes sociaux séquentiels canoniques (Gathering et Cleanup) et deux LLM de pointe (Claude Sonnet 4.6, Gemini 3.1 Pro), le feedback dense égale ou dépasse systématiquement le feedback sparse sur toutes les métriques. L'avantage est le plus marqué dans le jeu de biens publics Cleanup, où la fourniture de métriques sociales aide le LLM à calibrer le compromis coûteux entre nettoyage et récolte. Plutôt que de déclencher une sur-optimisation de l'équité, les métriques sociales servent de signal de coordination qui guide le LLM vers des stratégies coopératives plus efficaces, incluant le partitionnement territorial, l'attribution adaptative des rôles et l'évitement de l'agression stérile. Nous menons en outre une expérience adversarial pour déterminer si les LLM peuvent détourner les récompenses de ces environnements. Nous caractérisons cinq classes d'attaques et discutons des mesures d'atténuation, mettant en lumière une tension inhérente dans la synthèse de politiques par LLM entre expressivité et sécurité. Code disponible à l'adresse : https://github.com/vicgalle/llm-policies-social-dilemmas.

English

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Coopération et Exploitation dans la Synthèse de Politiques pour les LLM Appliqués aux Dilemmes Sociaux Séquentiels

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Résumé

Support