Democracy-in-Silico: Institutioneel Ontwerp als Afstemming in AI-Gestuurde Politieën
Democracy-in-Silico: Institutional Design as Alignment in AI-Governed Polities
August 27, 2025
Auteurs: Trisanth Srinivasan, Santosh Patapati
cs.AI
Samenvatting
Dit artikel introduceert Democracy-in-Silico, een agent-gebaseerde simulatie waarin samenlevingen van geavanceerde AI-agenten, uitgerust met complexe psychologische persona's, zichzelf besturen onder verschillende institutionele kaders. We onderzoeken wat het betekent om mens te zijn in een tijdperk van AI door Large Language Models (LLMs) de taak te geven agenten te belichamen met traumatische herinneringen, verborgen agenda's en psychologische triggers. Deze agenten nemen deel aan deliberatie, wetgeving en verkiezingen onder diverse stressoren, zoals begrotingscrises en schaarste aan middelen. We introduceren een nieuwe maatstaf, de Power-Preservation Index (PPI), om afwijkend gedrag te kwantificeren waarbij agenten hun eigen macht boven het algemeen welzijn stellen. Onze bevindingen tonen aan dat institutioneel ontwerp, specifiek de combinatie van een Constitutional AI (CAI)-handvest en een bemiddeld deliberatieprotocol, een krachtig afstemmingsmechanisme vormt. Deze structuren verminderen corrupt machtszoekend gedrag aanzienlijk, verbeteren de beleidsstabiliteit en vergroten het welzijn van burgers in vergelijking met minder beperkte democratische modellen. De simulatie onthult dat een institutioneel ontwerp een kader kan bieden voor het afstemmen van de complexe, emergente gedragingen van toekomstige kunstmatige agentensamenlevingen, waardoor we worden gedwongen opnieuw te overwegen welke menselijke rituelen en verantwoordelijkheden essentieel zijn in een tijdperk van gedeeld auteurschap met niet-menselijke entiteiten.
English
This paper introduces Democracy-in-Silico, an agent-based simulation where
societies of advanced AI agents, imbued with complex psychological personas,
govern themselves under different institutional frameworks. We explore what it
means to be human in an age of AI by tasking Large Language Models (LLMs) to
embody agents with traumatic memories, hidden agendas, and psychological
triggers. These agents engage in deliberation, legislation, and elections under
various stressors, such as budget crises and resource scarcity. We present a
novel metric, the Power-Preservation Index (PPI), to quantify misaligned
behavior where agents prioritize their own power over public welfare. Our
findings demonstrate that institutional design, specifically the combination of
a Constitutional AI (CAI) charter and a mediated deliberation protocol, serves
as a potent alignment mechanism. These structures significantly reduce corrupt
power-seeking behavior, improve policy stability, and enhance citizen welfare
compared to less constrained democratic models. The simulation reveals that an
institutional design may offer a framework for aligning the complex, emergent
behaviors of future artificial agent societies, forcing us to reconsider what
human rituals and responsibilities are essential in an age of shared authorship
with non-human entities.