ChatPaper.aiChatPaper

大規模言語モデルを用いたソーシャルメディアユーザーのシミュレーションに向けて:条件付きコメント予測の操作的妥当性の評価

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

February 26, 2026
著者: Nils Schwager, Simon Münker, Alistair Plum, Achim Rettinger
cs.AI

要旨

大規模言語モデル(LLM)が探索的ツールから社会科学における能動的「シリコン主体」へと移行する過程では、操作的妥当性の広範な検証が欠如している。本研究では、Conditioned Comment Prediction(CCP)というタスクを提案する。これは、モデルが特定の刺激に対してユーザーがどのようにコメントするかを予測し、その生成出力を実際のデジタル痕跡と比較するものである。この枠組みにより、ソーシャルメディアユーザー行動のシミュレーションに関する現行LLMの能力を厳密に評価することが可能となる。我々は、英語、ドイツ語、ルクセンブルク語のシナリオにおいて、オープンウェイトの8Bモデル(Llama3.1, Qwen3, Ministral)を評価した。プロンプト戦略(明示的 vs 暗黙的)と教師ありファインチューニング(SFT)の影響を体系的に比較することで、低リソース環境において決定的な形式と内容の分離を特定した:SFTはテキスト出力の表層構造(長さと構文)を整合させるが、意味的基盤を劣化させる。さらに、明示的条件付け(生成されたバイオグラフィー)は、ファインチューニング下ではモデルが行動履歴から直接潜在的な推論を成功させるため、冗長になることを示す。我々の知見は、現在の「素朴なプロンプト」パラダイムに疑問を投げかけ、高精度なシミュレーションのためには記述的なペルソナよりも真正な行動痕跡を優先する操作的ガイドラインを提供する。
English
The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.
PDF62May 8, 2026