VitaBench 2.0: Bewertung personalisierter und proaktiver Agenten in langfristigen Benutzerinteraktionen

Zusammenfassung

Große Sprachmodelle (LLMs) haben sich zu interaktiven Agenten entwickelt, die mit Nutzern bei realen Aufgaben zusammenarbeiten. Effektive Zusammenarbeit in solchen Umgebungen hängt zunehmend davon ab, den Nutzer über das explizit Gesagte hinaus zu verstehen, da die Nutzerabsicht oft in fragmentierten täglichen Interaktionen zum Ausdruck kommt und sowohl personalisierte Modellierung als auch proaktive Interaktion erfordert. Allerdings bewerten bestehende Agenten-Benchmarks hauptsächlich logisches Denken und Werkzeugnutzung und übersehen dabei weitgehend die Herausforderungen, die mit dem Ableiten und Nutzen von Nutzerpräferenzen in realistischen Szenarien verbunden sind. Um diese Lücke zu schließen, führen wir VitaBench 2.0 ein, einen Benchmark zur Bewertung personalisierten und proaktiven Agentenverhaltens in langfristigen Nutzerinteraktionen. In VitaBench 2.0 sind Aufgaben als zeitlich geordnete Sequenzen für einzelne Nutzer organisiert, wobei Präferenzen in fragmentierten und heterogenen Interaktionen eingebettet sind. Der erfolgreiche Abschluss von Aufgaben erfordert, dass der Agent kontinuierlich Nutzerpräferenzen aus diesen Interaktionen extrahiert, nutzt und aktualisiert. Darüber hinaus bewerten wir die Proaktivität durch Aufgaben, bei denen Agenten fehlende Informationen erkennen und diese vor Entscheidungen aktiv von Nutzern oder der Umgebung beschaffen müssen. Zur Unterstützung systematischer Analysen stellen wir eine erweiterbare Gedächtnisschnittstelle bereit, die einen kontrollierten Vergleich verschiedener Gedächtnisarchitekturen ermöglicht. Wir testen eine vielfältige Auswahl führender proprietärer und Open-Source-LLMs. Die Ergebnisse zeigen, dass die Personalisierung in der realen Welt selbst für modernste Modelle äußerst herausfordernd bleibt, was eine erhebliche Lücke zwischen aktuellen Fähigkeiten und praktischen Anforderungen offenbart. Umfangreiche Analysen zeigen weiterhin die Fehlermodi und Fähigkeitsengpässe aktueller Agenten bei der personalisierten Entscheidungsfindung in der realen Welt auf und liefern Erkenntnisse für zukünftige Modellverbesserungen.

English

Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.