Verso la Simulazione di Utenti dei Social Media con LLM: Valutazione della Validità Operazionale della Predizione Condizionata dei Commenti

Abstract

Il passaggio dei Large Language Model (LLM) da strumenti esplorativi a "soggetti di silicio" attivi nelle scienze sociali manca di una validazione estensiva della validità operativa. Questo studio introduce il Conditioned Comment Prediction (CCP), un compito in cui un modello predice come un utente commenterebbe un dato stimolo confrontando gli output generati con tracce digitali autentiche. Questo quadro consente una valutazione rigorosa delle capacità attuali degli LLM rispetto alla simulazione del comportamento degli utenti dei social media. Abbiamo valutato modelli open-weight da 8B (Llama3.1, Qwen3, Ministral) in scenari linguistici inglese, tedesco e lussemburghese. Confrontando sistematicamente le strategie di prompting (esplicito vs. implicito) e l'impatto del Supervised Fine-Tuning (SFT), identifichiamo un disaccoppiamento critico tra forma e contenuto in contesti a risorse limitate: mentre l'SFT allinea la struttura superficiale dell'output testuale (lunghezza e sintassi), esso degrada l'ancoraggio semantico. Inoltre, dimostriamo che il condizionamento esplicito (biografie generate) diventa ridondante sotto fine-tuning, poiché i modelli eseguono con successo inferenze latenti direttamente dalle cronologie comportamentali. Le nostre scoperte sfidano gli attuali paradigmi di "prompting ingenuo" e offrono linee guida operative che privilegiano le tracce comportamentali autentiche rispetto alle descrizioni di persona per una simulazione ad alta fedeltà.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Verso la Simulazione di Utenti dei Social Media con LLM: Valutazione della Validità Operazionale della Predizione Condizionata dei Commenti

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Abstract

Support