Rumo à Simulação de Utilizadores de Redes Sociais com LLMs: Avaliando a Validade Operacional da Predição de Comentários Condicionada

Resumo

A transição dos Grandes Modelos de Linguagem (LLMs) de ferramentas exploratórias para "sujeitos de silício" ativos nas ciências sociais carece de uma validação extensiva da validade operacional. Este estudo introduz a Predição de Comentário Condicionada (CCP), uma tarefa na qual um modelo prevê como um utilizador comentaria um determinado estímulo, comparando os resultados gerados com traços digitais autênticos. Este quadro permite uma avaliação rigorosa das capacidades atuais dos LLMs no que diz respeito à simulação do comportamento de utilizadores de redes sociais. Avaliámos modelos abertos de 8B (Llama3.1, Qwen3, Ministral) em cenários de língua inglesa, alemã e luxemburguesa. Ao comparar sistematicamente estratégias de *prompting* (explícita vs. implícita) e o impacto do Ajuste Fino Supervisionado (SFT), identificamos um desacoplamento crítico entre forma e conteúdo em contextos de baixos recursos: embora o SFT alinhe a estrutura de superfície da saída de texto (comprimento e sintaxe), este degrada o enraizamento semântico. Além disso, demonstramos que o condicionamento explícito (biografias geradas) se torna redundante sob ajuste fino, uma vez que os modelos realizam com sucesso inferência latente diretamente a partir de históricos comportamentais. As nossas descobertas desafiam os atuais paradigmas de "*prompting* ingénuo" e oferecem diretrizes operacionais que priorizam traços comportamentais autênticos em detrimento de personas descritivas para uma simulação de alta fidelidade.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Rumo à Simulação de Utilizadores de Redes Sociais com LLMs: Avaliando a Validade Operacional da Predição de Comentários Condicionada

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Resumo

Support