Auf dem Weg zur Simulation von Social-Media-Nutzern mit LLMs: Bewertung der operationalen Validität konditionierter Kommentarvorhersagen

Zusammenfassung

Der Übergang von Large Language Models (LLMs) von explorativen Werkzeugen zu aktiven "Silizium-Subjekten" in den Sozialwissenschaften entbehrt einer umfassenden Validierung der operationalen Validität. Diese Studie stellt Conditioned Comment Prediction (CCP) vor, eine Aufgabe, bei der ein Modell vorhersagt, wie ein Nutzer auf einen gegebenen Stimulus kommentieren würde, indem generierte Outputs mit authentischen digitalen Spuren verglichen werden. Dieser Rahmen ermöglicht eine rigorose Evaluation der aktuellen Fähigkeiten von LLMs hinsichtlich der Simulation von Social-Media-Nutzerverhalten. Wir evaluierten Open-Weight-8B-Modelle (Llama3.1, Qwen3, Ministral) in englischen, deutschen und luxemburgischen Sprachszenarien. Durch den systematischen Vergleich von Prompting-Strategien (explizit vs. implizit) und der Auswirkung von Supervised Fine-Tuning (SFT) identifizieren wir eine kritische Entkopplung von Form und Inhalt in ressourcenarmen Umgebungen: Während SFT die Oberflächenstruktur der Textausgabe (Länge und Syntax) anpasst, verschlechtert es die semantische Verankerung. Des Weiteren zeigen wir, dass explizite Konditionierung (generierte Biografien) unter Fine-Tuning redundant wird, da Modelle erfolgreich latente Inferenzen direkt aus Verhaltenshistorien ableiten. Unsere Ergebnisse stellen aktuelle "naive Prompting"-Paradigmen in Frage und bieten operative Richtlinien, die authentische Verhaltensspuren gegenüber deskriptiven Personas für hochgradig authentische Simulation priorisieren.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Auf dem Weg zur Simulation von Social-Media-Nutzern mit LLMs: Bewertung der operationalen Validität konditionierter Kommentarvorhersagen

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Zusammenfassung

Support