Verso la Simulazione del Comportamento Umano nel Mondo Reale: Valutazione dei Modelli Linguistici di Grande Dimensione su Tracce Comportamentali a Lungo Orizzonte, Trans-scenario ed Eterogenee

Abstract

L'emergere dei Large Language Model (LLM) ha illuminato il potenziale per un simulatore d'utente a scopo generale. Tuttavia, i benchmark esistenti rimangono limitati a scenari isolati, spazi d'azione ristretti o dati sintetici, non riuscendo a cogliere la natura olistica del comportamento umano autentico. Per colmare questa lacuna, introduciamo OmniBehavior, il primo benchmark di simulazione utente interamente costruito da dati del mondo reale, che integra modelli comportamentali a lungo termine, trasversali agli scenari ed eterogenei in un quadro unificato. Basandoci su questo benchmark, forniamo per la prima volta evidenze empiriche che i dataset precedenti con scenari isolati soffrono di visione tunnel, mentre il processo decisionale nel mondo reale si basa su catene causali a lungo termine e trasversali agli scenari. Valutazioni estensive sui LLM più avanzati rivelano che i modelli attuali faticano a simulare accuratamente questi comportamenti complessi, con prestazioni che raggiungono un plateau anche con l'ampliamento delle finestre contestuali. Crucialmente, un confronto sistematico tra comportamenti simulati e autentici rivela un pregiudizio strutturale fondamentale: i LLM tendono a convergere verso una persona media positiva, esibendo iper-attività, omogeneizzazione della persona e un pregiudizio utopico. Ciò si traduce nella perdita delle differenze individuali e dei comportamenti a coda lunga, evidenziando direzioni critiche per la futura ricerca sulla simulazione ad alta fedeltà.

English

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.

Verso la Simulazione del Comportamento Umano nel Mondo Reale: Valutazione dei Modelli Linguistici di Grande Dimensione su Tracce Comportamentali a Lungo Orizzonte, Trans-scenario ed Eterogenee

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Abstract

Support