Hin zur Simulation menschlichen Verhaltens in der realen Welt: Eine Bewertung von Large Language Models bei langfristigen, übergreifenden und heterogenen Verhaltensabläufen

Zusammenfassung

Das Aufkommen großer Sprachmodelle (LLMs) hat das Potenzial für einen allgemeinen Nutzersimulator aufgezeigt. Bestehende Benchmarks beschränken sich jedoch nach wie vor auf isolierte Szenarien, eingeschränkte Aktionsräume oder synthetische Daten und erfassen nicht die Ganzheitlichkeit authentischen menschlichen Verhaltens. Um diese Lücke zu schließen, stellen wir OmniBehavior vor, den ersten Nutzersimulations-Benchmark, der vollständig auf realen Daten basiert und langfristige, szenarioübergreifende sowie heterogene Verhaltensmuster in einem einheitlichen Rahmen integriert. Auf Basis dieses Benchmarks liefern wir erstmals empirische Belege dafür, dass frühere Datensätze mit isolierten Szenarien unter Tunnelblick leiden, wohingegen reale Entscheidungsfindung auf langfristigen, szenarioübergreifenden Kausalketten beruht. Umfangreiche Auswertungen modernster LLMs zeigen, dass aktuelle Modelle Schwierigkeiten haben, diese komplexen Verhaltensweisen präzise zu simulieren – die Leistung stagniert selbst bei erweiterten Kontextfenstern. Entscheidend ist, dass ein systematischer Vergleich zwischen simuliertem und authentischem Verhalten eine grundlegende strukturelle Verzerrung aufdeckt: LLMs tendieren dazu, sich auf eine positive Durchschnittsperson zuzubewegen, wobei sie Hyperaktivität, Personenhomogenisierung und einen utopischen Bias zeigen. Dies führt zum Verlust individueller Unterschiede und von Langschwanzverhalten und unterstreicht damit entscheidende Richtungen für zukünftige Hochfidelitäts-Simulationsforschung.

English

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.

Hin zur Simulation menschlichen Verhaltens in der realen Welt: Eine Bewertung von Large Language Models bei langfristigen, übergreifenden und heterogenen Verhaltensabläufen

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Zusammenfassung

Support