Параметрическое внедрение социальной идентичности и диверсификация в симуляции общественного мнения

Аннотация

Большие языковые модели (БЯМ) недавно начали использоваться в качестве синтетических агентов для моделирования общественного мнения, предлагая многообещающую альтернативу дорогостоящим и медленным опросам людей. Несмотря на свою масштабируемость, современные методы моделирования на основе БЯМ не способны отразить социальное разнообразие, демонстрируя сглаженные межгрупповые различия и излишне однородные ответы среди демографических групп. Мы идентифицируем это ограничение как явление коллапса разнообразия (Diversity Collapse) в скрытых представлениях БЯМ, при котором различные социальные идентичности становятся всё менее различимыми по мере прохождения слоёв. Основываясь на этом наблюдении, мы предлагаем параметрическое внедрение социальной идентичности (PSII) — общую структуру, которая напрямую вводит явные параметрические представления демографических атрибутов и ценностных ориентаций в промежуточные скрытые состояния БЯМ. В отличие от кондиционирования личности на основе промптов, PSII обеспечивает тонко настраиваемую и управляемую модуляцию идентичности на уровне представлений. Обширные эксперименты на данных World Values Survey с использованием нескольких открытых БЯМ показывают, что PSII значительно улучшает распределительную точность и разнообразие, снижая расхождение Кульбака-Лейблера (KL-расхождение) с реальными данными опросов и одновременно повышая общее разнообразие. Данная работа даёт новое понимание контроля на уровне представлений для агентов на основе БЯМ и продвигает масштабируемое, учитывающее разнообразие моделирование общественного мнения.

English

Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-group differences and overly homogeneous responses across demographic groups. We identify this limitation as a Diversity Collapse phenomenon in LLM hidden representations, where distinct social identities become increasingly indistinguishable across layers. Motivated by this observation, we propose Parametric Social Identity Injection (PSII), a general framework that injects explicit, parametric representations of demographic attributes and value orientations directly into intermediate hidden states of LLMs. Unlike prompt-based persona conditioning, PSII enables fine-grained and controllable identity modulation at the representation level. Extensive experiments on the World Values Survey using multiple open-source LLMs show that PSII significantly improves distributional fidelity and diversity, reducing KL divergence to real-world survey data while enhancing overall diversity. This work provides new insights into representation-level control of LLM agents and advances scalable, diversity-aware public opinion simulation.