Открытие кооперативных пайплайнов: автоисследование последовательных социальных дилемм

Аннотация

Мы исследуем двухуровневый автоисследовательский подход к кооперации: ИИ-агент внешнего цикла автономно перепроектирует конвейер внутреннего цикла системы синтеза политик на основе LLM для многоагентных последовательных социальных дилемм (Sequential Social Dilemmas, SSD). Агент-исследователь R (реализованный как кодирующий агент) читает исходный код внутреннего цикла, редактирует системные промпты, функции обратной связи, вспомогательные библиотеки и логику итераций, запускает оценки и принимает решения о сохранении, следуя парадигме автоисследования. На двух играх (Cleanup и Gathering), двух LLM-синтезаторах политик и двух целевых функциях благосостояния (утилитарная эффективность и роулзианский максимин) исследователь стабильно превосходит вручную разработанные базовые решения, существенно снижает разброс результатов между запусками и превосходит оптимизацию только за счет промптов. Обнаруженные конвейеры зависят от целевой функции: только при максимине исследователь внедряет в конвейеры синтезатора явный механизм справедливости — класс механизмов, отсутствующих как в его собственной целе-агностической системной подсказке, так и во всех конвейерах, оптимизированных по эффективности. Это согласуется с интерпретацией в рамках теории информации, согласно которой исследователь выбирает, что раскрывать ограниченно рациональному синтезатору, в зависимости от целевой функции благосостояния. Код доступен по адресу https://github.com/vicgalle/autoresearch-social-dilemmas.

English

We study two-level autoresearch for cooperation: an outer-loop AI agent autonomously redesigns the inner-loop pipeline of an LLM policy-synthesis system for multi-agent Sequential Social Dilemmas (SSDs). A researcher agent R (run as a coding agent) reads the inner-loop source code, edits system prompts, feedback functions, helper libraries, and iteration logic, runs evaluations, and decides what to keep, following the autoresearch paradigm. Across two games (Cleanup and Gathering), two policy-synthesizer LLMs, and two welfare objectives (utilitarian efficiency and Rawlsian maximin), the researcher reliably exceeds hand-designed baselines, sharply tightens run-to-run variance, and outperforms prompt-only optimization. The discovered pipelines are objective-dependent: only under maximin does the researcher inject an explicit fairness mechanism into synthesizer pipelines, a class of mechanism that is absent from its own objective-agnostic system prompt and from every efficiency-optimized pipeline. This supports an information-design reading in which the researcher chooses what to reveal to the boundedly rational synthesizer as a function of the welfare objective. Code at https://github.com/vicgalle/autoresearch-social-dilemmas.