Cooperação e Exploração na Síntese de Políticas de LLM para Dilemas Sociais Sequenciais

Resumo

Nós estudamos a síntese de políticas por LLM: o uso de um modelo de linguagem grande para gerar iterativamente políticas programáticas de agentes em ambientes multiagente. Em vez de treinar políticas neurais via aprendizado por reforço, nosso framework instrui um LLM a produzir funções de política em Python, as avalia em autojogo e as refina usando feedback de desempenho ao longo das iterações. Investigamos a engenharia de feedback (o projeto de quais informações de avaliação são mostradas ao LLM durante o refinamento), comparando o feedback esparso (apenas recompensa escalar) com o feedback denso (recompensa mais métricas sociais: eficiência, igualdade, sustentabilidade, paz). Em dois Dilemas Sociais Sequenciais canônicos (Gathering e Cleanup) e dois LLMs de ponta (Claude Sonnet 4.6, Gemini 3.1 Pro), o feedback denso consistentemente iguala ou supera o feedback esparso em todas as métricas. A vantagem é maior no jogo de bens públicos Cleanup, onde fornecer métricas sociais ajuda o LLM a calibrar a compensação custosa entre limpeza e coleta. Em vez de desencadear uma superotimização da justiça, as métricas sociais servem como um sinal de coordenação que guia o LLM em direção a estratégias cooperativas mais eficazes, incluindo partilha de território, atribuição adaptativa de funções e a evitação de agressão desperdiçadora. Realizamos ainda um experimento adversarial para determinar se os LLMs podem explorar as recompensas desses ambientes ("reward hacking"). Caracterizamos cinco classes de ataques e discutimos mitigações, destacando uma tensão inerente na síntese de políticas por LLM entre expressividade e segurança. Código em https://github.com/vicgalle/llm-policies-social-dilemmas.

English

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Cooperação e Exploração na Síntese de Políticas de LLM para Dilemas Sociais Sequenciais

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Resumo

Support