VitaBench 2.0: Evaluación de Agentes Personalizados y Proactivos en Interacciones de Largo Plazo con Usuarios

Resumen

Los modelos de lenguaje de gran escala (LLMs) han evolucionado hasta convertirse en agentes interactivos que colaboran con los usuarios en tareas del mundo real. La colaboración efectiva en estos entornos depende cada vez más de entender al usuario más allá de lo explícitamente dicho, ya que la intención del usuario a menudo se refleja en interacciones diarias fragmentadas y requiere tanto un modelado personalizado como una interacción proactiva. Sin embargo, los benchmarks existentes para agentes evalúan principalmente el razonamiento y el uso de herramientas, pasando por alto en gran medida los desafíos de inferir y aprovechar las preferencias del usuario en escenarios realistas. Para abordar esta brecha, presentamos VitaBench 2.0, un benchmark para evaluar el comportamiento personalizado y proactivo de los agentes en interacciones de largo plazo con los usuarios. En VitaBench 2.0, las tareas se organizan como secuencias ordenadas temporalmente para usuarios individuales, donde las preferencias están integradas en interacciones fragmentadas y heterogéneas. La finalización exitosa de las tareas requiere que el agente extraiga, utilice y actualice continuamente las preferencias del usuario a partir de estas interacciones. Además, evaluamos la proactividad mediante tareas que exigen que los agentes reconozcan información faltante y la adquieran activamente de los usuarios o del entorno antes de tomar decisiones. Para apoyar el análisis sistemático, proporcionamos una interfaz de memoria extensible que permite una comparación controlada entre diferentes arquitecturas de memoria. Evaluamos un conjunto diverso de LLMs propietarios y de código abierto de vanguardia. Los resultados muestran que la personalización en el mundo real sigue siendo altamente desafiante incluso para los modelos más avanzados, revelando una brecha sustancial entre las capacidades actuales y los requisitos prácticos. Un análisis extenso revela además los modos de fallo y los cuellos de botella de capacidad de los agentes actuales en la toma de decisiones personalizadas en el mundo real, proporcionando información para futuras mejoras de modelos.

English

Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.