Демократия в Силико: Институциональный дизайн как согласование в политических системах, управляемых ИИ
Democracy-in-Silico: Institutional Design as Alignment in AI-Governed Polities
August 27, 2025
Авторы: Trisanth Srinivasan, Santosh Patapati
cs.AI
Аннотация
В данной работе представлена модель Democracy-in-Silico, агентно-ориентированная симуляция, в которой общества продвинутых ИИ-агентов, наделенных сложными психологическими характеристиками, управляют собой в рамках различных институциональных систем. Мы исследуем, что значит быть человеком в эпоху ИИ, поручая крупным языковым моделям (LLM) воплощать агентов с травматическими воспоминаниями, скрытыми мотивами и психологическими триггерами. Эти агенты участвуют в обсуждениях, законодательной деятельности и выборах, сталкиваясь с различными стрессовыми факторами, такими как бюджетные кризисы и нехватка ресурсов. Мы вводим новый показатель — Индекс Сохранения Власти (Power-Preservation Index, PPI), чтобы количественно оценивать несоответствующее поведение, при котором агенты ставят свои интересы выше общественного блага. Наши результаты показывают, что институциональный дизайн, в частности сочетание Хартии Конституционного ИИ (Constitutional AI, CAI) и протокола опосредованного обсуждения, служит мощным механизмом согласования. Такие структуры значительно снижают коррумпированное стремление к власти, повышают стабильность политики и улучшают благосостояние граждан по сравнению с менее ограниченными демократическими моделями. Симуляция демонстрирует, что институциональный дизайн может предложить основу для согласования сложных, возникающих поведений будущих обществ искусственных агентов, заставляя нас переосмыслить, какие человеческие ритуалы и обязанности остаются важными в эпоху совместного творчества с нечеловеческими сущностями.
English
This paper introduces Democracy-in-Silico, an agent-based simulation where
societies of advanced AI agents, imbued with complex psychological personas,
govern themselves under different institutional frameworks. We explore what it
means to be human in an age of AI by tasking Large Language Models (LLMs) to
embody agents with traumatic memories, hidden agendas, and psychological
triggers. These agents engage in deliberation, legislation, and elections under
various stressors, such as budget crises and resource scarcity. We present a
novel metric, the Power-Preservation Index (PPI), to quantify misaligned
behavior where agents prioritize their own power over public welfare. Our
findings demonstrate that institutional design, specifically the combination of
a Constitutional AI (CAI) charter and a mediated deliberation protocol, serves
as a potent alignment mechanism. These structures significantly reduce corrupt
power-seeking behavior, improve policy stability, and enhance citizen welfare
compared to less constrained democratic models. The simulation reveals that an
institutional design may offer a framework for aligning the complex, emergent
behaviors of future artificial agent societies, forcing us to reconsider what
human rituals and responsibilities are essential in an age of shared authorship
with non-human entities.