VitaBench 2.0: Avaliando Agentes Personalizados e Proativos em Interações de Longo Prazo com Usuários

Resumo

Modelos de linguagem de grande porte (LLMs) evoluíram para agentes interativos que colaboram com usuários em tarefas do mundo real. A colaboração eficaz nesses ambientes depende cada vez mais da compreensão do usuário além do que é explicitamente declarado, pois a intenção do usuário é frequentemente refletida em interações diárias fragmentadas e exige tanto modelagem personalizada quanto interação proativa. No entanto, os benchmarks existentes para agentes avaliam principalmente raciocínio e uso de ferramentas, negligenciando em grande parte os desafios de inferir e aproveitar preferências do usuário em cenários realistas. Para preencher essa lacuna, apresentamos o VitaBench 2.0, um benchmark para avaliar o comportamento personalizado e proativo de agentes em interações de longo prazo com usuários. No VitaBench 2.0, as tarefas são organizadas como sequências ordenadas temporalmente para usuários individuais, onde as preferências estão embutidas em interações fragmentadas e heterogêneas. A conclusão bem-sucedida das tarefas exige que o agente extraia, utilize e atualize continuamente as preferências do usuário a partir dessas interações. Além disso, avaliamos a proatividade por meio de tarefas que exigem que os agentes reconheçam informações ausentes e as adquiram ativamente dos usuários ou do ambiente antes de tomar decisões. Para apoiar a análise sistemática, fornecemos uma interface de memória extensível que permite comparação controlada entre diferentes arquiteturas de memória. Comparamos um conjunto diversificado de LLMs proprietários e de código aberto de ponta. Os resultados mostram que a personalização no mundo real continua sendo altamente desafiadora mesmo para modelos de última geração, revelando uma lacuna substancial entre as capacidades atuais e os requisitos práticos. Análises extensas revelam ainda os modos de falha e os gargalos de capacidade dos agentes atuais na tomada de decisão personalizada no mundo real, fornecendo insights para futuras melhorias nos modelos.

English

Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.