Vers la simulation réaliste du comportement humain : Évaluation des modèles de langage de grande taille sur des traces comportementales à long horizon, trans-scénarios et hétérogènes

Résumé

L'émergence des grands modèles de langage (LLM) a mis en lumière le potentiel d'un simulateur d'utilisateur universel. Cependant, les benchmarks existants restent limités à des scénarios isolés, des espaces d'action restreints ou des données synthétiques, ne parvenant pas à saisir la nature holistique du comportement humain authentique. Pour combler cette lacune, nous présentons OmniBehavior, le premier benchmark de simulation d'utilisateur entièrement construit à partir de données réelles, intégrant des schémas comportementaux à long terme, trans-scénarios et hétérogènes dans un cadre unifié. Sur la base de ce benchmark, nous apportons d'abord la preuve empirique que les ensembles de données précédents avec des scénarios isolés souffrent d'une vision en tunnel, tandis que la prise de décision réelle repose sur des chaînes causales à long terme et trans-scénarios. Des évaluations approfondies des LLM de pointe révèlent que les modèles actuels peinent à simuler avec précision ces comportements complexes, avec une performance qui plafonne même lorsque les fenêtres contextuelles s'élargissent. Crucialement, une comparaison systématique entre les comportements simulés et authentiques met en lumière un biais structurel fondamental : les LLM ont tendance à converger vers une personne moyenne positive, exhibant une hyper-activité, une homogénéisation des personas et un biais utopique. Cela entraîne la perte des différences individuelles et des comportements de longue traîne, soulignant des orientations critiques pour la future recherche sur la simulation haute fidélité.

English

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.

Vers la simulation réaliste du comportement humain : Évaluation des modèles de langage de grande taille sur des traces comportementales à long horizon, trans-scénarios et hétérogènes

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Résumé

Support