Inyección y Diversificación Paramétricas de Identidad Social en la Simulación de Opinión Pública

Resumen

Los modelos de lenguaje grandes (LLMs) han sido adoptados recientemente como agentes sintéticos para la simulación de opinión pública, ofreciendo una alternativa prometedora a las encuestas humanas costosas y lentas. A pesar de su escalabilidad, los métodos actuales de simulación basados en LLMs no logran capturar la diversidad social, produciendo diferencias intergrupales aplanadas y respuestas excesivamente homogéneas entre grupos demográficos. Identificamos esta limitación como un fenómeno de Colapso de la Diversidad en las representaciones ocultas de los LLMs, donde identidades sociales distintas se vuelven cada vez más indistinguibles a través de las capas. Motivados por esta observación, proponemos la Inyección Paramétrica de Identidad Social (PSII), un marco general que inyecta representaciones paramétricas explícitas de atributos demográficos y orientaciones de valor directamente en estados ocultos intermedios de los LLMs. A diferencia del condicionamiento de persona basado en indicaciones, PSII permite una modulación de identidad fina y controlable a nivel de representación. Experimentos exhaustivos en la World Values Survey utilizando múltiples LLMs de código abierto muestran que PSII mejora significativamente la fidelidad distribucional y la diversidad, reduciendo la divergencia KL con respecto a los datos reales de encuestas y mejorando la diversidad general. Este trabajo proporciona nuevas perspectivas sobre el control a nivel de representación de agentes LLM y avanza hacia una simulación de opinión pública escalable y consciente de la diversidad.

English

Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-group differences and overly homogeneous responses across demographic groups. We identify this limitation as a Diversity Collapse phenomenon in LLM hidden representations, where distinct social identities become increasingly indistinguishable across layers. Motivated by this observation, we propose Parametric Social Identity Injection (PSII), a general framework that injects explicit, parametric representations of demographic attributes and value orientations directly into intermediate hidden states of LLMs. Unlike prompt-based persona conditioning, PSII enables fine-grained and controllable identity modulation at the representation level. Extensive experiments on the World Values Survey using multiple open-source LLMs show that PSII significantly improves distributional fidelity and diversity, reducing KL divergence to real-world survey data while enhancing overall diversity. This work provides new insights into representation-level control of LLM agents and advances scalable, diversity-aware public opinion simulation.