UserBench : Un Environnement de Gymnase Interactif pour des Agents Centrés sur l'Utilisateur
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
papers.authors: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
papers.abstract
Les agents basés sur les modèles de langage de grande taille (LLMs) ont réalisé des progrès impressionnants en matière de raisonnement et d'utilisation d'outils, leur permettant de résoudre des tâches complexes. Cependant, leur capacité à collaborer de manière proactive avec les utilisateurs, en particulier lorsque les objectifs sont vagues, évolutifs ou exprimés indirectement, reste peu explorée. Pour combler cette lacune, nous introduisons UserBench, un benchmark centré sur l'utilisateur conçu pour évaluer les agents dans des interactions multi-tours et guidées par les préférences. UserBench met en scène des utilisateurs simulés qui commencent avec des objectifs mal définis et révèlent leurs préférences de manière progressive, exigeant des agents qu'ils clarifient activement les intentions et prennent des décisions éclairées à l'aide d'outils. Notre évaluation des LLMs open-source et propriétaires les plus performants révèle un décalage significatif entre l'exécution des tâches et l'alignement avec les besoins de l'utilisateur. Par exemple, les modèles fournissent des réponses entièrement alignées avec toutes les intentions de l'utilisateur seulement 20 % du temps en moyenne, et même les modèles les plus avancés découvrent moins de 30 % des préférences utilisateur par le biais d'interactions actives. Ces résultats mettent en lumière les défis liés à la création d'agents qui ne sont pas seulement des exécuteurs de tâches compétents, mais de véritables partenaires collaboratifs. UserBench offre un environnement interactif pour mesurer et faire progresser cette capacité critique.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.