Cooperación y Explotación en la Síntesis de Políticas para LLM en Dilemas Sociales Secuenciales

Resumen

Estudiamos la síntesis de políticas mediante LLM: el uso de un modelo de lenguaje grande para generar iterativamente políticas de agentes programáticas en entornos multiagente. En lugar de entrenar políticas neuronales mediante aprendizaje por refuerzo, nuestro marco de trabajo solicita a un LLM que produzca funciones de política en Python, las evalúa en autojuego y las refina utilizando retroalimentación de rendimiento a lo largo de iteraciones. Investigamos la ingeniería de retroalimentación (el diseño de qué información de evaluación se muestra al LLM durante el refinamiento) comparando la retroalimentación escasa (solo recompensa escalar) con la retroalimentación densa (recompensa más métricas sociales: eficiencia, igualdad, sostenibilidad, paz). En dos Dilemas Sociales Secuenciales canónicos (Gathering y Cleanup) y dos LLMs de vanguardia (Claude Sonnet 4.6, Gemini 3.1 Pro), la retroalimentación densa coincide o supera consistentemente a la retroalimentación escasa en todas las métricas. La ventaja es mayor en el juego de bienes públicos Cleanup, donde proporcionar métricas sociales ayuda al LLM a calibrar la compensación costosa entre limpiar y recolectar. En lugar de desencadenar una sobreoptimización de la equidad, las métricas sociales sirven como una señal de coordinación que guía al LLM hacia estrategias cooperativas más efectivas, incluyendo la división de territorios, la asignación adaptativa de roles y la evitación de agresión derrochadora. Realizamos además un experimento adversarial para determinar si los LLMs pueden hackear las recompensas en estos entornos. Caracterizamos cinco clases de ataques y discutimos mitigaciones, destacando una tensión inherente en la síntesis de políticas mediante LLM entre expresividad y seguridad. Código en https://github.com/vicgalle/llm-policies-social-dilemmas.

English

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Cooperación y Explotación en la Síntesis de Políticas para LLM en Dilemas Sociales Secuenciales

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Resumen

Support