Naar het simuleren van sociale media-gebruikers met LLM's: Evaluatie van de operationele validiteit van voorwaardelijke commentaarvoorspelling

Samenvatting

De overgang van Large Language Models (LLM's) van verkennende instrumenten naar actieve "siliconen subjecten" in de sociale wetenschappen mist uitgebreide validatie van operationele validiteit. Deze studie introduceert Conditioned Comment Prediction (CCP), een taak waarbij een model voorspelt hoe een gebruiker zou reageren op een gegeven stimulus door gegenereerde output te vergelijken met authentieke digitale sporen. Dit raamwerk maakt een rigoureuze evaluatie mogelijk van de huidige capaciteiten van LLM's met betrekking tot de simulatie van gedrag van sociale media-gebruikers. Wij evalueerden open-weight 8B-modellen (Llama3.1, Qwen3, Ministral) in Engelstalige, Duitstalige en Luxemburgstalige scenario's. Door systematisch promptingstrategieën (expliciet vs. impliciet) en de impact van Supervised Fine-Tuning (SFT) te vergelijken, identificeren we een kritische ontkoppeling van vorm en inhoud in settings met weinig bronnen: waar SFT de oppervlaktestructuur van de tekstoutput (lengte en syntaxis) afstemt, verslechtert het de semantische verankering. Verder tonen we aan dat expliciete conditionering (gegenereerde biografieën) overbodig wordt onder fine-tuning, omdat modellen met succes latente inferentie direct uit gedragsgeschiedenissen uitvoeren. Onze bevindingen dagen de huidige "naïeve prompting"-paradigma's uit en bieden operationele richtlijnen die authentieke gedragssporen prioriteren boven beschrijvende persona's voor hoogwaardige simulatie.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Naar het simuleren van sociale media-gebruikers met LLM's: Evaluatie van de operationele validiteit van voorwaardelijke commentaarvoorspelling

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Samenvatting

Support