UserBench: Интерактивная среда Gym для пользователь-ориентированных агентов
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
Авторы: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) достигли значительных успехов в области рассуждений и использования инструментов, что позволяет им решать сложные задачи. Однако их способность к активному взаимодействию с пользователями, особенно когда цели нечетко определены, эволюционируют или выражены косвенно, остается малоизученной. Чтобы устранить этот пробел, мы представляем UserBench — ориентированный на пользователя бенчмарк, предназначенный для оценки агентов в многоходовых взаимодействиях, управляемых предпочтениями. UserBench включает симулированных пользователей, которые начинают с неопределенных целей и постепенно раскрывают свои предпочтения, требуя от агентов активного уточнения намерений и принятия обоснованных решений с использованием инструментов. Наша оценка ведущих открытых и закрытых LLM выявила значительный разрыв между выполнением задач и соответствием ожиданиям пользователей. Например, модели предоставляют ответы, полностью соответствующие всем намерениям пользователей, только в 20% случаев в среднем, и даже самые продвинутые модели выявляют менее 30% всех предпочтений пользователей через активное взаимодействие. Эти результаты подчеркивают сложность создания агентов, которые являются не просто эффективными исполнителями задач, но и настоящими партнерами по сотрудничеству. UserBench предлагает интерактивную среду для измерения и развития этой критически важной способности.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.