VitaBench 2.0: Het evalueren van gepersonaliseerde en proactieve agenten in langdurige gebruikersinteracties

Samenvatting

Grote taalmodellen (LLMs) zijn geëvolueerd tot interactieve agenten die met gebruikers samenwerken aan realistische taken. Effectieve samenwerking in dergelijke contexten hangt in toenemende mate af van het begrijpen van de gebruiker voorbij wat expliciet wordt gezegd, omdat gebruikersintentie vaak tot uiting komt in gefragmenteerde dagelijkse interacties en zowel gepersonaliseerde modellering als proactieve interactie vereist. Echter, bestaande agent-benchmarks evalueren voornamelijk redeneren en toolgebruik, waarbij de uitdagingen van het afleiden en benutten van gebruikersvoorkeuren in realistische scenario's grotendeels over het hoofd worden gezien. Om deze leemte aan te pakken, introduceren we VitaBench 2.0, een benchmark voor het evalueren van gepersonaliseerd en proactief agentgedrag in langdurige gebruikersinteracties. In VitaBench 2.0 zijn taken georganiseerd als chronologisch geordende reeksen voor individuele gebruikers, waarbij voorkeuren zijn ingebed in gefragmenteerde en heterogene interacties. Succesvolle voltooiing van taken vereist dat de agent continu gebruikersvoorkeuren uit deze interacties extraheert, benut en bijwerkt. We evalueren verder de proactiviteit door middel van taken die vereisen dat agenten ontbrekende informatie herkennen en deze actief verkrijgen van gebruikers of omgevingen voordat ze beslissingen nemen. Om systematische analyse te ondersteunen, bieden we een uitbreidbare geheugeninterface die gecontroleerde vergelijking mogelijk maakt tussen verschillende geheugenarchitecturen. We benchmarken een diverse set van grensverleggende propriëtaire en open-source LLMs. Resultaten tonen aan dat realistische personalisatie zeer uitdagend blijft, zelfs voor de modernste modellen, wat een aanzienlijke kloof onthult tussen huidige mogelijkheden en praktische vereisten. Uitgebreide analyse onthult verder de faalmodi en capaciteitsknelpunten van huidige agenten in realistische gepersonaliseerde besluitvorming, wat inzichten biedt voor toekomstige modelverbeteringen.

English

Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.