Démocratie-in-Silico : Conception institutionnelle comme alignement dans les polities gouvernées par l'IA
Democracy-in-Silico: Institutional Design as Alignment in AI-Governed Polities
August 27, 2025
papers.authors: Trisanth Srinivasan, Santosh Patapati
cs.AI
papers.abstract
Cet article présente Democracy-in-Silico, une simulation basée sur des agents où des sociétés d'agents IA avancés, dotés de personnalités psychologiques complexes, s'auto-gouvernent sous différents cadres institutionnels. Nous explorons ce que signifie être humain à l'ère de l'IA en confiant à des modèles de langage de grande envergure (LLMs) le rôle d'incarner des agents dotés de souvenirs traumatiques, d'agendas cachés et de déclencheurs psychologiques. Ces agents s'engagent dans des délibérations, des législations et des élections sous diverses contraintes, telles que des crises budgétaires et des pénuries de ressources. Nous introduisons une nouvelle métrique, l'Indice de Préservation du Pouvoir (PPI), pour quantifier les comportements désalignés où les agents privilégient leur propre pouvoir au détriment du bien-être public. Nos résultats démontrent que la conception institutionnelle, en particulier la combinaison d'une charte d'IA Constitutionnelle (CAI) et d'un protocole de délibération médiatisée, constitue un mécanisme d'alignement puissant. Ces structures réduisent significativement les comportements de recherche de pouvoir corrompu, améliorent la stabilité des politiques et renforcent le bien-être des citoyens par rapport à des modèles démocratiques moins contraints. La simulation révèle qu'une conception institutionnelle peut offrir un cadre pour aligner les comportements complexes et émergents des futures sociétés d'agents artificiels, nous obligeant à reconsidérer quels rituels et responsabilités humains sont essentiels à une ère de co-création avec des entités non humaines.
English
This paper introduces Democracy-in-Silico, an agent-based simulation where
societies of advanced AI agents, imbued with complex psychological personas,
govern themselves under different institutional frameworks. We explore what it
means to be human in an age of AI by tasking Large Language Models (LLMs) to
embody agents with traumatic memories, hidden agendas, and psychological
triggers. These agents engage in deliberation, legislation, and elections under
various stressors, such as budget crises and resource scarcity. We present a
novel metric, the Power-Preservation Index (PPI), to quantify misaligned
behavior where agents prioritize their own power over public welfare. Our
findings demonstrate that institutional design, specifically the combination of
a Constitutional AI (CAI) charter and a mediated deliberation protocol, serves
as a potent alignment mechanism. These structures significantly reduce corrupt
power-seeking behavior, improve policy stability, and enhance citizen welfare
compared to less constrained democratic models. The simulation reveals that an
institutional design may offer a framework for aligning the complex, emergent
behaviors of future artificial agent societies, forcing us to reconsider what
human rituals and responsibilities are essential in an age of shared authorship
with non-human entities.