Vers une simulation des utilisateurs des médias sociaux avec des LLM : Évaluation de la validité opérationnelle de la prédiction conditionnée des commentaires

Résumé

La transition des grands modèles de langage (LLM) d'outils exploratoires à de véritables « sujets de silicium » dans les sciences sociales manque d'une validation extensive de leur validité opérationnelle. Cette étude introduit la Prédiction de Commentaires Conditionnée (CCP), une tâche dans laquelle un modèle prédit comment un utilisateur commenterait un stimulus donné en comparant les sorties générées avec des traces numériques authentiques. Ce cadre permet une évaluation rigoureuse des capacités actuelles des LLM concernant la simulation du comportement des utilisateurs sur les médias sociaux. Nous avons évalué des modèles open-weight de 8B (Llama3.1, Qwen3, Ministral) dans des scénarios en anglais, allemand et luxembourgeois. En comparant systématiquement les stratégies d'invite (explicite vs. implicite) et l'impact du Fine-Tuning Supervisé (SFT), nous identifions un découplage critique entre la forme et le contenu dans les contextes à faibles ressources : bien que le SFT aligne la structure de surface de la sortie textuelle (longueur et syntaxe), il dégrade l'ancrage sémantique. De plus, nous démontrons que le conditionnement explicite (biographies générées) devient redondant après le fine-tuning, car les modèles effectuent avec succès une inférence latente directement à partir des historiques comportementaux. Nos résultats remettent en cause les paradigmes actuels de « l'invite naïve » et offrent des directives opérationnelles privilégiant les traces comportementales authentiques plutôt que les personnages descriptifs pour une simulation haute fidélité.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Vers une simulation des utilisateurs des médias sociaux avec des LLM : Évaluation de la validité opérationnelle de la prédiction conditionnée des commentaires

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Résumé

Support