UserBench: Een Interactieve Gym-omgeving voor Gebruikersgerichte Agents
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
Auteurs: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Samenvatting
Op Large Language Models (LLM's) gebaseerde agents hebben indrukwekkende vooruitgang geboekt in redeneren en het gebruik van tools, waardoor ze complexe taken kunnen oplossen. Hun vermogen om proactief samen te werken met gebruikers, vooral wanneer doelen vaag, evoluerend of indirect geformuleerd zijn, blijft echter onderbelicht. Om deze kloof te dichten, introduceren we UserBench, een gebruikersgerichte benchmark die is ontworpen om agents te evalueren in meerdaagse, voorkeursgestuurde interacties. UserBench bevat gesimuleerde gebruikers die beginnen met ongespecificeerde doelen en hun voorkeuren geleidelijk onthullen, waardoor agents proactief intenties moeten verduidelijken en gefundeerde beslissingen moeten nemen met behulp van tools. Onze evaluatie van toonaangevende open- en closed-source LLM's toont een aanzienlijke kloof tussen taakvoltooiing en gebruikersafstemming. Zo leveren modellen antwoorden die gemiddeld slechts 20% van de tijd volledig aansluiten bij alle gebruikersintenties, en zelfs de meest geavanceerde modellen ontdekken minder dan 30% van alle gebruikersvoorkeuren via actieve interactie. Deze resultaten benadrukken de uitdagingen van het bouwen van agents die niet alleen capabele taakuitvoerders zijn, maar ook echte samenwerkingspartners. UserBench biedt een interactieve omgeving om deze cruciale capaciteit te meten en verder te ontwikkelen.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.