Injeção e Diversificação Paramétricas de Identidade Social na Simulação de Opinião Pública

Resumo

Grandes modelos de linguagem (LLMs) têm sido recentemente adotados como agentes sintéticos para simulação de opinião pública, oferecendo uma alternativa promissora a pesquisas humanas caras e lentas. Apesar de sua escalabilidade, os métodos atuais de simulação baseados em LLMs falham em capturar a diversidade social, produzindo diferenças intergrupais achatadas e respostas excessivamente homogêneas entre grupos demográficos. Identificamos essa limitação como um fenômeno de Colapso da Diversidade nas representações ocultas dos LLMs, onde identidades sociais distintas tornam-se cada vez mais indistinguíveis entre camadas. Motivados por essa observação, propomos a Injeção Paramétrica de Identidade Social (PSII), uma estrutura geral que injeta representações explícitas e paramétricas de atributos demográficos e orientações de valor diretamente nos estados ocultos intermediários dos LLMs. Diferentemente do condicionamento de persona baseado em prompts, o PSII permite uma modulação de identidade refinada e controlável no nível das representações. Experimentos extensivos na Pesquisa de Valores Mundiais utilizando múltiplos LLMs de código aberto mostram que o PSII melhora significativamente a fidelidade distribucional e a diversidade, reduzindo a divergência KL em relação a dados reais de pesquisa, ao mesmo tempo em que aumenta a diversidade geral. Este trabalho fornece novos insights sobre o controle no nível das representações de agentes LLM e avança na simulação de opinião pública escalável e consciente da diversidade.

English

Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-group differences and overly homogeneous responses across demographic groups. We identify this limitation as a Diversity Collapse phenomenon in LLM hidden representations, where distinct social identities become increasingly indistinguishable across layers. Motivated by this observation, we propose Parametric Social Identity Injection (PSII), a general framework that injects explicit, parametric representations of demographic attributes and value orientations directly into intermediate hidden states of LLMs. Unlike prompt-based persona conditioning, PSII enables fine-grained and controllable identity modulation at the representation level. Extensive experiments on the World Values Survey using multiple open-source LLMs show that PSII significantly improves distributional fidelity and diversity, reducing KL divergence to real-world survey data while enhancing overall diversity. This work provides new insights into representation-level control of LLM agents and advances scalable, diversity-aware public opinion simulation.