VitaBench 2.0: Оценка персонализированных и проактивных агентов в долгосрочных взаимодействиях с пользователем

Аннотация

Большие языковые модели (LLM) эволюционировали в интерактивных агентов, которые сотрудничают с пользователями в реальных задачах. Эффективное сотрудничество в таких условиях всё больше зависит от понимания пользователя за пределами явно выраженного, поскольку намерения пользователя часто отражаются в разрозненных повседневных взаимодействиях и требуют как персонализированного моделирования, так и проактивного взаимодействия. Однако существующие бенчмарки агентов в первую очередь оценивают рассуждение и использование инструментов, в значительной степени игнорируя задачи вывода и использования предпочтений пользователей в реалистичных сценариях. Чтобы восполнить этот пробел, мы представляем VitaBench 2.0 — бенчмарк для оценки персонализированного и проактивного поведения агентов в долгосрочных взаимодействиях с пользователями. В VitaBench 2.0 задачи организованы как упорядоченные во времени последовательности для отдельных пользователей, где предпочтения встроены в разрозненные и гетерогенные взаимодействия. Успешное выполнение задач требует от агента непрерывного извлечения, использования и обновления предпочтений пользователей из этих взаимодействий. Мы также оцениваем проактивность с помощью задач, требующих от агентов распознавать недостающую информацию и активно получать её от пользователей или из окружающей среды перед принятием решений. Для поддержки систематического анализа мы предоставляем расширяемый интерфейс памяти, который позволяет проводить контролируемое сравнение различных архитектур памяти. Мы проводим бенчмаркинг разнообразного набора передовых проприетарных и открытых LLM. Результаты показывают, что персонализация в реальных условиях остаётся крайне сложной задачей даже для самых современных моделей, выявляя значительный разрыв между текущими возможностями и практическими требованиями. Дальнейший обширный анализ выявляет режимы сбоев и узкие места в возможностях современных агентов в процессе принятия персонализированных решений в реальных условиях, что даёт представление для будущих улучшений моделей.

English

Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.