UserBench: Eine interaktive Trainingsumgebung für nutzerzentrierte Agenten

papers.abstract

Agenten, die auf Large Language Models (LLMs) basieren, haben beeindruckende Fortschritte im Bereich des logischen Denkens und der Werkzeugnutzung gemacht, was es ihnen ermöglicht, komplexe Aufgaben zu lösen. Ihre Fähigkeit, proaktiv mit Benutzern zusammenzuarbeiten, insbesondere wenn Ziele vage, sich entwickelnd oder indirekt formuliert sind, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir UserBench vor, einen benutzerzentrierten Benchmark, der entwickelt wurde, um Agenten in mehrstufigen, präferenzgesteuerten Interaktionen zu bewerten. UserBench umfasst simulierte Benutzer, die mit unspezifischen Zielen beginnen und ihre Präferenzen schrittweise offenbaren, wodurch die Agenten gezwungen sind, proaktiv Absichten zu klären und fundierte Entscheidungen mit Werkzeugen zu treffen. Unsere Bewertung führender Open-Source- und Closed-Source-LLMs zeigt eine erhebliche Diskrepanz zwischen der Aufgabenbewältigung und der Benutzerausrichtung. Beispielsweise liefern die Modelle nur in durchschnittlich 20 % der Fälle Antworten, die vollständig mit allen Benutzerabsichten übereinstimmen, und selbst die fortschrittlichsten Modelle decken durch aktive Interaktion weniger als 30 % aller Benutzerpräferenzen auf. Diese Ergebnisse unterstreichen die Herausforderungen beim Aufbau von Agenten, die nicht nur fähige Aufgabenausführer, sondern echte Kooperationspartner sind. UserBench bietet eine interaktive Umgebung, um diese kritische Fähigkeit zu messen und weiterzuentwickeln.

English

Large Language Models (LLMs)-based agents have made impressive progress in reasoning and tool use, enabling them to solve complex tasks. However, their ability to proactively collaborate with users, especially when goals are vague, evolving, or indirectly expressed, remains underexplored. To address this gap, we introduce UserBench, a user-centric benchmark designed to evaluate agents in multi-turn, preference-driven interactions. UserBench features simulated users who start with underspecified goals and reveal preferences incrementally, requiring agents to proactively clarify intent and make grounded decisions with tools. Our evaluation of leading open- and closed-source LLMs reveals a significant disconnect between task completion and user alignment. For instance, models provide answers that fully align with all user intents only 20% of the time on average, and even the most advanced models uncover fewer than 30% of all user preferences through active interaction. These results highlight the challenges of building agents that are not just capable task executors, but true collaborative partners. UserBench offers an interactive environment to measure and advance this critical capability.

UserBench: Eine interaktive Trainingsumgebung für nutzerzentrierte Agenten

UserBench: An Interactive Gym Environment for User-Centric Agents

papers.abstract

Support