Injection et diversification paramétriques d'identité sociale dans la simulation d'opinion publique

Résumé

Les grands modèles de langage (LLMs) ont récemment été adoptés comme agents synthétiques pour la simulation de l'opinion publique, offrant une alternative prometteuse aux enquêtes humaines coûteuses et lentes. Malgré leur évolutivité, les méthodes actuelles de simulation basées sur les LLMs ne parviennent pas à capturer la diversité sociale, produisant des différences inter-groupes nivelées et des réponses excessivement homogènes selon les groupes démographiques. Nous identifions cette limitation comme un phénomène d'effondrement de la diversité (Diversity Collapse) dans les représentations cachées des LLMs, où des identités sociales distinctes deviennent de plus en plus indistinguables à travers les couches. Motivés par cette observation, nous proposons l'injection paramétrique d'identité sociale (PSII), un cadre général qui injecte des représentations explicites et paramétriques des attributs démographiques et des orientations de valeurs directement dans les états cachés intermédiaires des LLMs. Contrairement au conditionnement de persona basé sur les invites, PSII permet une modulation d'identité fine et contrôlable au niveau des représentations. Des expériences approfondies sur la World Values Survey utilisant plusieurs LLMs open source montrent que PSII améliore significativement la fidélité distributionnelle et la diversité, réduisant la divergence KL par rapport aux données d'enquête réelles tout en améliorant la diversité globale. Ce travail fournit de nouvelles perspectives sur le contrôle au niveau des représentations des agents LLM et fait progresser la simulation d'opinion publique évolutive et sensible à la diversité.

English

Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-group differences and overly homogeneous responses across demographic groups. We identify this limitation as a Diversity Collapse phenomenon in LLM hidden representations, where distinct social identities become increasingly indistinguishable across layers. Motivated by this observation, we propose Parametric Social Identity Injection (PSII), a general framework that injects explicit, parametric representations of demographic attributes and value orientations directly into intermediate hidden states of LLMs. Unlike prompt-based persona conditioning, PSII enables fine-grained and controllable identity modulation at the representation level. Extensive experiments on the World Values Survey using multiple open-source LLMs show that PSII significantly improves distributional fidelity and diversity, reducing KL divergence to real-world survey data while enhancing overall diversity. This work provides new insights into representation-level control of LLM agents and advances scalable, diversity-aware public opinion simulation.