LLM을 활용한 소셜 미디어 사용자 시뮬레이션을 향하여: 조건부 댓글 예측의 운영 타당도 평가
Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction
February 26, 2026
저자: Nils Schwager, Simon Münker, Alistair Plum, Achim Rettinger
cs.AI
초록
대규모 언어 모델(LLM)이 탐색적 도구에서 사회과학 분야의 능동적인 '실리콘 연구 대상'으로 전환되는 과정에는 운영 타당성에 대한 광범위한 검증이 부재한 상태입니다. 본 연구는 조건부 댓글 예측(CCP) 과제를 소개합니다. CCP는 모델이 생성된 출력을 실제 디지털 흔적과 비교하여 특정 자극에 대한 사용자의 댓글 작성 방식을 예측하는 과제입니다. 이 프레임워크를 통해 소셜 미디어 사용자 행동 시뮬레이션 측면에서 현재 LLM의 능력을 엄격하게 평가할 수 있습니다. 우리는 영어, 독일어, 룩셈부르크어 시나리오에서 오픈 웨이트 8B 모델(Llama3.1, Qwen3, Ministral)을 평가했습니다. 체계적으로 프롬프트 전략(명시적 vs. 암묵적)과 지도 미세 조정(SFT)의 영향을 비교함으로써, 저자원 환경에서 중요한 형태와 내용의 분리 현상을 확인했습니다: SFT는 텍스트 출력의 표면적 구조(길이와 구문)를 정렬하지만 의미론적 토대를 저하시킵니다. 더 나아가, 미세 조정 하에서는 모델이 행동 이력에서 직접 잠재적 추론을 성공적으로 수행하기 때문에 명시적 조건화(생성된 인물 소개)가 중복된다는 점을 입증했습니다. 우리의 연구 결과는 현재의 "단순 프롬프팅" 패러다임에 의문을 제기하며, 높은 정확도의 시뮬레이션을 위해 서술적 페르소나보다 실제 행동 흔적을 우선시하는 운영 가이드라인을 제시합니다.
English
The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.