VitaBench 2.0 : évaluation d'agents personnalisés et proactifs dans des interactions utilisateur à long terme

Résumé

Les grands modèles de langage (LLMs) ont évolué pour devenir des agents interactifs qui collaborent avec les utilisateurs dans des tâches du monde réel. Une collaboration efficace dans ces contextes dépend de plus en plus d'une compréhension de l'utilisateur au-delà de ce qui est explicitement énoncé, car l'intention de l'utilisateur se reflète souvent dans des interactions quotidiennes fragmentées et nécessite à la fois une modélisation personnalisée et une interaction proactive. Cependant, les référentiels d'évaluation d'agents existants se concentrent principalement sur le raisonnement et l'utilisation d'outils, négligeant largement les défis liés à l'inférence et à l'exploitation des préférences des utilisateurs dans des scénarios réalistes. Pour combler cette lacune, nous présentons VitaBench 2.0, un référentiel conçu pour évaluer le comportement personnalisé et proactif des agents dans le cadre d'interactions utilisateur à long terme. Dans VitaBench 2.0, les tâches sont organisées sous forme de séquences temporelles ordonnées pour chaque utilisateur, où les préférences sont intégrées dans des interactions fragmentées et hétérogènes. La réussite des tâches exige que l'agent extraie, utilise et mette à jour en continu les préférences des utilisateurs à partir de ces interactions. Nous évaluons également la proactivité à travers des tâches qui nécessitent que l'agent reconnaisse les informations manquantes et les acquière activement auprès des utilisateurs ou de l'environnement avant de prendre des décisions. Pour soutenir une analyse systématique, nous fournissons une interface mémoire extensible permettant une comparaison contrôlée entre différentes architectures de mémoire. Nous évaluons un ensemble diversifié de LLMs propriétaires et open-source de pointe. Les résultats montrent que la personnalisation dans le monde réel reste extrêmement difficile, même pour les modèles les plus avancés, révélant un écart substantiel entre les capacités actuelles et les exigences pratiques. Une analyse approfondie met en lumière les modes d'échec et les goulets d'étranglement capacitaires des agents actuels dans la prise de décision personnalisée en situation réelle, fournissant des pistes pour les améliorations futures des modèles.

English

Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.