Démocratie-in-Silico : Conception institutionnelle comme alignement dans les polities gouvernées par l'IA

papers.abstract

Cet article présente Democracy-in-Silico, une simulation basée sur des agents où des sociétés d'agents IA avancés, dotés de personnalités psychologiques complexes, s'auto-gouvernent sous différents cadres institutionnels. Nous explorons ce que signifie être humain à l'ère de l'IA en confiant à des modèles de langage de grande envergure (LLMs) le rôle d'incarner des agents dotés de souvenirs traumatiques, d'agendas cachés et de déclencheurs psychologiques. Ces agents s'engagent dans des délibérations, des législations et des élections sous diverses contraintes, telles que des crises budgétaires et des pénuries de ressources. Nous introduisons une nouvelle métrique, l'Indice de Préservation du Pouvoir (PPI), pour quantifier les comportements désalignés où les agents privilégient leur propre pouvoir au détriment du bien-être public. Nos résultats démontrent que la conception institutionnelle, en particulier la combinaison d'une charte d'IA Constitutionnelle (CAI) et d'un protocole de délibération médiatisée, constitue un mécanisme d'alignement puissant. Ces structures réduisent significativement les comportements de recherche de pouvoir corrompu, améliorent la stabilité des politiques et renforcent le bien-être des citoyens par rapport à des modèles démocratiques moins contraints. La simulation révèle qu'une conception institutionnelle peut offrir un cadre pour aligner les comportements complexes et émergents des futures sociétés d'agents artificiels, nous obligeant à reconsidérer quels rituels et responsabilités humains sont essentiels à une ère de co-création avec des entités non humaines.

English

This paper introduces Democracy-in-Silico, an agent-based simulation where societies of advanced AI agents, imbued with complex psychological personas, govern themselves under different institutional frameworks. We explore what it means to be human in an age of AI by tasking Large Language Models (LLMs) to embody agents with traumatic memories, hidden agendas, and psychological triggers. These agents engage in deliberation, legislation, and elections under various stressors, such as budget crises and resource scarcity. We present a novel metric, the Power-Preservation Index (PPI), to quantify misaligned behavior where agents prioritize their own power over public welfare. Our findings demonstrate that institutional design, specifically the combination of a Constitutional AI (CAI) charter and a mediated deliberation protocol, serves as a potent alignment mechanism. These structures significantly reduce corrupt power-seeking behavior, improve policy stability, and enhance citizen welfare compared to less constrained democratic models. The simulation reveals that an institutional design may offer a framework for aligning the complex, emergent behaviors of future artificial agent societies, forcing us to reconsider what human rituals and responsibilities are essential in an age of shared authorship with non-human entities.

Démocratie-in-Silico : Conception institutionnelle comme alignement dans les polities gouvernées par l'IA

Democracy-in-Silico: Institutional Design as Alignment in AI-Governed Polities

papers.abstract

Support