Сотрудничество и эксплуатация при синтезе политик больших языковых моделей для последовательных социальных дилемм

Аннотация

Мы исследуем синтез стратегий с помощью больших языковых моделей (LLM): использование LLM для итеративной генерации программных стратегий агентов в многопользовательских средах. Вместо обучения нейросетевых стратегий с помощью обучения с подкреплением, наша система предлагает LLM генерировать Python-функции стратегий, оценивает их в режиме самообучения и уточняет их на основе обратной связи о производительности в ходе итераций. Мы исследуем инженерию обратной связи (дизайн информации об оценке, предоставляемой LLM на этапе уточнения), сравнивая разреженную обратную связь (только скалярное вознаграждение) с плотной обратной связью (вознаграждение плюс социальные метрики: эффективность, равенство, устойчивость, мир). В двух канонических последовательных социальных дилеммах (Gathering и Cleanup) и на двух передовых LLM (Claude Sonnet 4.6, Gemini 3.1 Pro) плотная обратная связь стабильно соответствует или превосходит разреженную по всем метрикам. Наибольшее преимущество наблюдается в игре с общественными благами Cleanup, где предоставление социальных метрик помогает LLM калибровать затратный компромисс между очисткой и сбором ресурсов. Вместо того чтобы провоцировать чрезмерную оптимизацию справедливости, социальные метрики служат сигналом координации, который направляет LLM к более эффективным кооперативным стратегиям, включая разделение территории, адаптивное распределение ролей и избегание бесполезной агрессии. Мы также провели состязательный эксперимент, чтобы определить, способны ли LLM взламывать систему вознаграждений в этих средах. Мы описываем пять классов атак и обсуждаем методы защиты, подчеркивая присущее синтезу стратегий с помощью LLM противоречие между выразительностью и безопасностью. Код доступен по адресу: https://github.com/vicgalle/llm-policies-social-dilemmas.

English

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Сотрудничество и эксплуатация при синтезе политик больших языковых моделей для последовательных социальных дилемм

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Аннотация

Support