UserBench: Un Ambiente Gym Interattivo per Agenti Centrati sull'Utente
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
Autori: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) basati su agenti hanno compiuto progressi impressionanti nel ragionamento e nell'uso di strumenti, consentendo loro di risolvere compiti complessi. Tuttavia, la loro capacità di collaborare proattivamente con gli utenti, specialmente quando gli obiettivi sono vaghi, in evoluzione o espressi indirettamente, rimane poco esplorata. Per colmare questa lacuna, introduciamo UserBench, un benchmark centrato sull'utente progettato per valutare gli agenti in interazioni multi-turno guidate dalle preferenze. UserBench include utenti simulati che partono con obiettivi non specificati e rivelano gradualmente le loro preferenze, richiedendo agli agenti di chiarire proattivamente le intenzioni e prendere decisioni fondate con gli strumenti. La nostra valutazione dei principali LLM open-source e closed-source rivela un significativo disallineamento tra il completamento del compito e l'allineamento con l'utente. Ad esempio, i modelli forniscono risposte che si allineano completamente a tutte le intenzioni dell'utente solo il 20% delle volte in media, e persino i modelli più avanzati scoprono meno del 30% di tutte le preferenze dell'utente attraverso l'interazione attiva. Questi risultati evidenziano le sfide nel costruire agenti che non siano solo esecutori capaci di compiti, ma veri partner collaborativi. UserBench offre un ambiente interattivo per misurare e far progredire questa capacità critica.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.