К моделированию реального человеческого поведения: оценка больших языковых моделей на длительных, кросс-сценарийных и гетерогенных поведенческих траекториях

Аннотация

Появление больших языковых моделей (LLM) выявило потенциал создания универсального симулятора пользователя. Однако существующие бенчмарки остаются ограниченными изолированными сценариями, узкими пространствами действий или синтетическими данными, не способными охватить целостную природу подлинного человеческого поведения. Чтобы заполнить этот пробел, мы представляем OmniBehavior — первый бенчмарк для симуляции пользователя, полностью построенный на реальных данных, который интегрирует долгосрочные, кросс-сценарийные и гетерогенные поведенческие паттерны в единую структуру. На основе этого бенчмарка мы впервые предоставляем эмпирические доказательства того, что предыдущие наборы данных с изолированными сценариями страдают от «тоннельного зрения», тогда как реальное принятие решений опирается на долгосрочные кросс-сценарийные причинно-следственные цепочки. Масштабные оценки современных LLM показывают, что текущие модели с трудом точно имитируют такое сложное поведение, а их производительность выходит на плато даже при расширении контекстных окон. Что особенно важно, систематическое сравнение смоделированного и аутентичного поведения выявляет фундаментальную структурную предвзятость: LLM демонстрируют тенденцию к усреднению в сторону «позитивного среднего человека», проявляя гиперактивность, гомогенизацию персон и утопическое смещение. Это приводит к потере индивидуальных различий и поведенческих паттернов из «длинного хвоста», указывая на ключевые направления для будущих исследований в области высокоточной симуляции.

English

The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.

К моделированию реального человеческого поведения: оценка больших языковых моделей на длительных, кросс-сценарийных и гетерогенных поведенческих траекториях

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Аннотация

Support