Découverte de pipelines coopératifs : Auto-recherche pour les dilemmes sociaux séquentiels

Résumé

Nous étudions l'auto-recherche à deux niveaux pour la coopération : un agent IA en boucle externe reconçoit de manière autonome la pipeline en boucle interne d'un système de synthèse de politiques basé sur un LLM pour des dilemmes sociaux séquentiels multi-agents (SSD). Un agent chercheur R (exécuté en tant qu'agent de codage) lit le code source de la boucle interne, modifie les invites du système, les fonctions de rétroaction, les bibliothèques auxiliaires et la logique d'itération, exécute des évaluations et décide ce qu'il faut conserver, suivant le paradigme de l'auto-recherche. Dans deux jeux (Cleanup et Gathering), deux LLM synthétiseurs de politiques et deux objectifs de bien-être (efficacité utilitariste et maximin rawlsien), le chercheur dépasse systématiquement les références conçues manuellement, réduit nettement la variance entre les exécutions et surpasse l'optimisation par invites uniquement. Les pipelines découvertes dépendent de l'objectif : ce n'est que sous le maximin que le chercheur injecte un mécanisme d'équité explicite dans les pipelines du synthétiseur, une classe de mécanismes absente de son invite système indépendante de l'objectif et de toute pipeline optimisée pour l'efficacité. Cela soutient une lecture en termes de conception informationnelle où le chercheur choisit ce qu'il révèle au synthétiseur à rationalité limitée en fonction de l'objectif de bien-être. Code disponible à l'adresse https://github.com/vicgalle/autoresearch-social-dilemmas.

English

We study two-level autoresearch for cooperation: an outer-loop AI agent autonomously redesigns the inner-loop pipeline of an LLM policy-synthesis system for multi-agent Sequential Social Dilemmas (SSDs). A researcher agent R (run as a coding agent) reads the inner-loop source code, edits system prompts, feedback functions, helper libraries, and iteration logic, runs evaluations, and decides what to keep, following the autoresearch paradigm. Across two games (Cleanup and Gathering), two policy-synthesizer LLMs, and two welfare objectives (utilitarian efficiency and Rawlsian maximin), the researcher reliably exceeds hand-designed baselines, sharply tightens run-to-run variance, and outperforms prompt-only optimization. The discovered pipelines are objective-dependent: only under maximin does the researcher inject an explicit fairness mechanism into synthesizer pipelines, a class of mechanism that is absent from its own objective-agnostic system prompt and from every efficiency-optimized pipeline. This supports an information-design reading in which the researcher chooses what to reveal to the boundedly rational synthesizer as a function of the welfare objective. Code at https://github.com/vicgalle/autoresearch-social-dilemmas.