UserBench: Eine interaktive Trainingsumgebung für nutzerzentrierte Agenten
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
papers.authors: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
papers.abstract
Agenten, die auf Large Language Models (LLMs) basieren, haben beeindruckende Fortschritte im Bereich des logischen Denkens und der Werkzeugnutzung gemacht, was es ihnen ermöglicht, komplexe Aufgaben zu lösen. Ihre Fähigkeit, proaktiv mit Benutzern zusammenzuarbeiten, insbesondere wenn Ziele vage, sich entwickelnd oder indirekt formuliert sind, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir UserBench vor, einen benutzerzentrierten Benchmark, der entwickelt wurde, um Agenten in mehrstufigen, präferenzgesteuerten Interaktionen zu bewerten. UserBench umfasst simulierte Benutzer, die mit unspezifischen Zielen beginnen und ihre Präferenzen schrittweise offenbaren, wodurch die Agenten gezwungen sind, proaktiv Absichten zu klären und fundierte Entscheidungen mit Werkzeugen zu treffen. Unsere Bewertung führender Open-Source- und Closed-Source-LLMs zeigt eine erhebliche Diskrepanz zwischen der Aufgabenbewältigung und der Benutzerausrichtung. Beispielsweise liefern die Modelle nur in durchschnittlich 20 % der Fälle Antworten, die vollständig mit allen Benutzerabsichten übereinstimmen, und selbst die fortschrittlichsten Modelle decken durch aktive Interaktion weniger als 30 % aller Benutzerpräferenzen auf. Diese Ergebnisse unterstreichen die Herausforderungen beim Aufbau von Agenten, die nicht nur fähige Aufgabenausführer, sondern echte Kooperationspartner sind. UserBench bietet eine interaktive Umgebung, um diese kritische Fähigkeit zu messen und weiterzuentwickeln.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.