К моделированию поведения пользователей социальных сетей с помощью больших языковых моделей: оценка операциональной валидности прогнозирования контекстуальных комментариев

Аннотация

Переход больших языковых моделей (БЯМ) от исследовательских инструментов к активным «кремниевым субъектам» в социальных науках требует более тщательной проверки операционной валидности. В данном исследовании представлена задача прогнозирования обусловленных комментариев (Conditioned Comment Prediction, CCP), в рамках которой модель предсказывает, как пользователь прокомментирует заданный стимул, путем сравнения сгенерированных результатов с аутентичными цифровыми следами. Этот подход позволяет провести строгую оценку текущих возможностей БЯМ в отношении симуляции поведения пользователей социальных сетей. Мы оценили открытые 8B-модели (Llama3.1, Qwen3, Ministral) в сценариях на английском, немецком и люксембургском языках. Систематически сравнивая стратегии prompting (явные и неявные) и влияние контролируемого тонкого настроя (SFT), мы выявили критическое расхождение формы и содержания в условиях ограниченных ресурсов: хотя SFT выравнивает поверхностную структуру текстового вывода (длину и синтаксис), оно ухудшает семантическую обоснованность. Кроме того, мы показываем, что явное обусловливание (сгенерированные биографии) становится избыточным при тонкой настройке, поскольку модели успешно выполняют латентный вывод непосредственно из историй поведения. Наши результаты ставят под сомнение текущие парадигмы «наивного промптинга» и предлагают операционные рекомендации, отдающие приоритет аутентичным поведенческим следам над описательными персонами для высокоточной симуляции.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Аннотация

Support