UserBench: Un Entorno de Gimnasio Interactivo para Agentes Centrados en el Usuario
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
Autores: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumen
Los agentes basados en Modelos de Lenguaje de Gran Escala (LLMs) han logrado avances impresionantes en razonamiento y uso de herramientas, permitiéndoles resolver tareas complejas. Sin embargo, su capacidad para colaborar proactivamente con los usuarios, especialmente cuando los objetivos son vagos, evolucionan o se expresan de manera indirecta, sigue siendo poco explorada. Para abordar esta brecha, presentamos UserBench, un punto de referencia centrado en el usuario diseñado para evaluar agentes en interacciones de múltiples turnos impulsadas por preferencias. UserBench incluye usuarios simulados que comienzan con objetivos poco especificados y revelan preferencias de manera incremental, requiriendo que los agentes aclaren proactivamente la intención y tomen decisiones fundamentadas con herramientas. Nuestra evaluación de los principales LLMs de código abierto y cerrado revela una desconexión significativa entre la finalización de tareas y la alineación con el usuario. Por ejemplo, los modelos proporcionan respuestas que se alinean completamente con todas las intenciones del usuario solo el 20% del tiempo en promedio, e incluso los modelos más avanzados descubren menos del 30% de todas las preferencias del usuario a través de la interacción activa. Estos resultados resaltan los desafíos de construir agentes que no solo sean ejecutores capaces de tareas, sino verdaderos socios colaborativos. UserBench ofrece un entorno interactivo para medir y avanzar en esta capacidad crítica.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.