Demokratie-in-Silico: Institutionelles Design als Ausrichtung in KI-gesteuerten Gemeinwesen
Democracy-in-Silico: Institutional Design as Alignment in AI-Governed Polities
August 27, 2025
papers.authors: Trisanth Srinivasan, Santosh Patapati
cs.AI
papers.abstract
Dieses Papier stellt Democracy-in-Silico vor, eine agentenbasierte Simulation, in der Gesellschaften fortgeschrittener KI-Agenten, die mit komplexen psychologischen Persönlichkeiten ausgestattet sind, sich selbst unter verschiedenen institutionellen Rahmenbedingungen regieren. Wir erforschen, was es bedeutet, Mensch in einem Zeitalter der KI zu sein, indem wir Large Language Models (LLMs) beauftragen, Agenten mit traumatischen Erinnerungen, verborgenen Agenden und psychologischen Auslösern zu verkörpern. Diese Agenten beteiligen sich an Beratungen, Gesetzgebung und Wahlen unter verschiedenen Stressfaktoren wie Haushaltskrisen und Ressourcenknappheit. Wir stellen eine neue Metrik vor, den Power-Preservation Index (PPI), um fehlausgerichtetes Verhalten zu quantifizieren, bei dem Agenten ihre eigene Macht über das Gemeinwohl stellen. Unsere Ergebnisse zeigen, dass das institutionelle Design, insbesondere die Kombination aus einer Constitutional AI (CAI)-Charta und einem vermittelten Beratungsprotokoll, als wirksamer Mechanismus zur Ausrichtung dient. Diese Strukturen reduzieren korruptes Machtstreben signifikant, verbessern die politische Stabilität und steigern das Wohl der Bürger im Vergleich zu weniger eingeschränkten demokratischen Modellen. Die Simulation zeigt, dass ein institutionelles Design einen Rahmen bieten kann, um die komplexen, emergenten Verhaltensweisen zukünftiger künstlicher Agentengesellschaften auszurichten, und zwingt uns dazu, neu zu überdenken, welche menschlichen Rituale und Verantwortlichkeiten in einem Zeitalter der gemeinsamen Autorschaft mit nicht-menschlichen Entitäten wesentlich sind.
English
This paper introduces Democracy-in-Silico, an agent-based simulation where
societies of advanced AI agents, imbued with complex psychological personas,
govern themselves under different institutional frameworks. We explore what it
means to be human in an age of AI by tasking Large Language Models (LLMs) to
embody agents with traumatic memories, hidden agendas, and psychological
triggers. These agents engage in deliberation, legislation, and elections under
various stressors, such as budget crises and resource scarcity. We present a
novel metric, the Power-Preservation Index (PPI), to quantify misaligned
behavior where agents prioritize their own power over public welfare. Our
findings demonstrate that institutional design, specifically the combination of
a Constitutional AI (CAI) charter and a mediated deliberation protocol, serves
as a potent alignment mechanism. These structures significantly reduce corrupt
power-seeking behavior, improve policy stability, and enhance citizen welfare
compared to less constrained democratic models. The simulation reveals that an
institutional design may offer a framework for aligning the complex, emergent
behaviors of future artificial agent societies, forcing us to reconsider what
human rituals and responsibilities are essential in an age of shared authorship
with non-human entities.