Hacia la Simulación de Comportamiento Humano en el Mundo Real: Evaluación de Modelos de Lenguaje Grande en Trayectorias de Comportamiento Heterogéneas, de Largo Horizonte y Multi-escenario

Resumen

El surgimiento de los Modelos de Lenguaje a Gran Escala (LLMs) ha revelado el potencial para un simulador de usuario de propósito general. Sin embargo, los puntos de referencia existentes siguen limitados a escenarios aislados, espacios de acción reducidos o datos sintéticos, sin lograr capturar la naturaleza holística del comportamiento humano auténtico. Para cerrar esta brecha, presentamos OmniBehavior, el primer punto de referencia para simulación de usuarios construido completamente a partir de datos del mundo real, que integra patrones de comportamiento heterogéneos, de largo horizonte y transversales a múltiples escenarios en un marco unificado. Basándonos en este punto de referencia, proporcionamos evidencia empírica de que los conjuntos de datos anteriores con escenarios aislados adolecen de visión de túnel, mientras que la toma de decisiones en el mundo real depende de cadenas causales a largo plazo y entre escenarios. Evaluaciones exhaustivas de los LLMs más avanzados revelan que los modelos actuales tienen dificultades para simular con precisión estos comportamientos complejos, con un rendimiento que se estanca incluso cuando se expanden las ventanas de contexto. Crucialmente, una comparación sistemática entre comportamientos simulados y auténticos descubre un sesgo estructural fundamental: los LLMs tienden a converger hacia una persona promedio positiva, exhibiendo hiperactividad, homogeneización de la personalidad y un sesgo utópico. Esto resulta en la pérdida de las diferencias individuales y los comportamientos de cola larga, destacando direcciones críticas para la futura investigación en simulación de alta fidelidad.

English

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.

Hacia la Simulación de Comportamiento Humano en el Mundo Real: Evaluación de Modelos de Lenguaje Grande en Trayectorias de Comportamiento Heterogéneas, de Largo Horizonte y Multi-escenario

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Resumen

Support