Hacia la Simulación de Usuarios de Redes Sociales con LLMs: Evaluación de la Validez Operacional de la Predicción de Comentarios Condicionada

Resumen

La transición de los Grandes Modelos de Lenguaje (LLM) de herramientas exploratorias a "sujetos de silicio" activos en las ciencias sociales carece de una validación extensa de su validez operativa. Este estudio introduce la Predicción de Comentarios Condicionada (CCP), una tarea en la que un modelo predice cómo un usuario comentaría sobre un estímulo dado mediante la comparación de salidas generadas con huellas digitales auténticas. Este marco permite una evaluación rigurosa de las capacidades actuales de los LLM con respecto a la simulación del comportamiento de usuarios en redes sociales. Evaluamos modelos abiertos de 8B parámetros (Llama3.1, Qwen3, Ministral) en escenarios en inglés, alemán y luxemburgués. Mediante la comparación sistemática de estrategias de *prompting* (explícito vs. implícito) y el impacto del Ajuste Supervisado (SFT), identificamos un desacoplamiento crítico entre forma y contenido en entornos de bajos recursos: mientras que el SFT alinea la estructura superficial de la salida de texto (longitud y sintaxis), degrada el anclaje semántico. Además, demostramos que el condicionamiento explícito (biografías generadas) se vuelve redundante bajo el ajuste fino, ya que los modelos realizan con éxito inferencia latente directamente a partir de historiales de comportamiento. Nuestros hallazgos desafían los paradigmas actuales de "*prompting* ingenuo" y ofrecen pautas operativas que priorizan las huellas conductuales auténticas sobre las descripciones de personalidad para una simulación de alta fidelidad.

English

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Hacia la Simulación de Usuarios de Redes Sociales con LLMs: Evaluación de la Validez Operacional de la Predicción de Comentarios Condicionada

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Resumen

Support