サイバー民主主義:AI統治下の政治体制における制度設計としてのアラインメント
Democracy-in-Silico: Institutional Design as Alignment in AI-Governed Polities
August 27, 2025
著者: Trisanth Srinivasan, Santosh Patapati
cs.AI
要旨
本論文では、Democracy-in-Silicoを紹介する。これは、複雑な心理的特性を備えた高度なAIエージェントの社会が、異なる制度的枠組みの下で自己統治を行うエージェントベースのシミュレーションである。我々は、大規模言語モデル(LLMs)に、トラウマ的記憶、隠れた意図、心理的トリガーを持つエージェントを体現させることで、AI時代における人間性の意味を探求する。これらのエージェントは、予算危機や資源不足などの様々なストレッサーの下で、審議、立法、選挙に従事する。我々は、エージェントが公共の福祉よりも自己の権力を優先するような不整合な行動を定量化するための新たな指標、Power-Preservation Index(PPI)を提示する。我々の研究結果は、特にConstitutional AI(CAI)憲章と仲介された審議プロトコルの組み合わせが、強力な整合メカニズムとして機能することを示している。これらの構造は、制約の少ない民主主義モデルと比較して、腐敗した権力追求行動を大幅に減少させ、政策の安定性を向上させ、市民の福祉を向上させる。このシミュレーションは、制度的設計が、将来の人工エージェント社会の複雑で創発的な行動を整合させるための枠組みを提供する可能性を示しており、非人間的エンティティとの共創時代において、人間の儀式や責任の本質を再考することを迫るものである。
English
This paper introduces Democracy-in-Silico, an agent-based simulation where
societies of advanced AI agents, imbued with complex psychological personas,
govern themselves under different institutional frameworks. We explore what it
means to be human in an age of AI by tasking Large Language Models (LLMs) to
embody agents with traumatic memories, hidden agendas, and psychological
triggers. These agents engage in deliberation, legislation, and elections under
various stressors, such as budget crises and resource scarcity. We present a
novel metric, the Power-Preservation Index (PPI), to quantify misaligned
behavior where agents prioritize their own power over public welfare. Our
findings demonstrate that institutional design, specifically the combination of
a Constitutional AI (CAI) charter and a mediated deliberation protocol, serves
as a potent alignment mechanism. These structures significantly reduce corrupt
power-seeking behavior, improve policy stability, and enhance citizen welfare
compared to less constrained democratic models. The simulation reveals that an
institutional design may offer a framework for aligning the complex, emergent
behaviors of future artificial agent societies, forcing us to reconsider what
human rituals and responsibilities are essential in an age of shared authorship
with non-human entities.