Rumo à Simulação do Comportamento Humano no Mundo Real: Avaliação de Modelos de Linguagem de Grande Escala em Traços Comportamentais de Longo Prazo, Cenários Cruzados e Heterogêneos

Resumo

O surgimento dos Grandes Modelos de Linguagem (LLMs) iluminou o potencial para um simulador de usuário de propósito geral. No entanto, os benchmarks existentes permanecem limitados a cenários isolados, espaços de ação restritos ou dados sintéticos, falhando em capturar a natureza holística do comportamento humano autêntico. Para preencher esta lacuna, introduzimos o OmniBehavior, o primeiro benchmark de simulação de usuário construído inteiramente a partir de dados do mundo real, integrando padrões comportamentais de longo prazo, cross-cenário e heterogêneos em uma estrutura unificada. Com base neste benchmark, fornecemos primeiro evidências empíricas de que conjuntos de dados anteriores com cenários isolados sofrem de visão em túnel, enquanto a tomada de decisão no mundo real depende de cadeias causais de longo prazo e entre cenários. Avaliações extensivas dos LLMs state-of-the-art revelam que os modelos atuais lutam para simular com precisão esses comportamentos complexos, com o desempenho estabilizando-se mesmo com a expansão das janelas de contexto. Crucialmente, uma comparação sistemática entre comportamentos simulados e autênticos revela um viés estrutural fundamental: os LLMs tendem a convergir para uma pessoa média positiva, exibindo hiperatividade, homogeneização de persona e um viés utópico. Isso resulta na perda de diferenças individuais e comportamentos de cauda longa, destacando direções críticas para futuras pesquisas de simulação de alta fidelidade.

English

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.

Rumo à Simulação do Comportamento Humano no Mundo Real: Avaliação de Modelos de Linguagem de Grande Escala em Traços Comportamentais de Longo Prazo, Cenários Cruzados e Heterogêneos

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Resumo

Support