UserBench: Um Ambiente de Ginásio Interativo para Agentes Centrados no Usuário
UserBench: An Interactive Gym Environment for User-Centric Agents
July 29, 2025
Autores: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumo
Agentes baseados em Large Language Models (LLMs) têm alcançado progressos impressionantes em raciocínio e uso de ferramentas, permitindo que resolvam tarefas complexas. No entanto, sua capacidade de colaborar proativamente com os usuários, especialmente quando os objetivos são vagos, evoluem ou são expressos indiretamente, ainda é pouco explorada. Para abordar essa lacuna, introduzimos o UserBench, um benchmark centrado no usuário projetado para avaliar agentes em interações multiturno e orientadas por preferências. O UserBench apresenta usuários simulados que começam com objetivos mal especificados e revelam preferências de forma incremental, exigindo que os agentes esclareçam proativamente a intenção e tomem decisões fundamentadas com ferramentas. Nossa avaliação dos principais LLMs de código aberto e fechado revela uma desconexão significativa entre a conclusão da tarefa e o alinhamento com o usuário. Por exemplo, os modelos fornecem respostas que se alinham completamente com todas as intenções do usuário apenas 20% das vezes, em média, e até os modelos mais avançados descobrem menos de 30% de todas as preferências do usuário por meio de interação ativa. Esses resultados destacam os desafios de construir agentes que não são apenas executores capazes de tarefas, mas verdadeiros parceiros colaborativos. O UserBench oferece um ambiente interativo para medir e avançar essa capacidade crítica.
English
Large Language Models (LLMs)-based agents have made impressive progress in
reasoning and tool use, enabling them to solve complex tasks. However, their
ability to proactively collaborate with users, especially when goals are vague,
evolving, or indirectly expressed, remains underexplored. To address this gap,
we introduce UserBench, a user-centric benchmark designed to evaluate agents in
multi-turn, preference-driven interactions. UserBench features simulated users
who start with underspecified goals and reveal preferences incrementally,
requiring agents to proactively clarify intent and make grounded decisions with
tools. Our evaluation of leading open- and closed-source LLMs reveals a
significant disconnect between task completion and user alignment. For
instance, models provide answers that fully align with all user intents only
20% of the time on average, and even the most advanced models uncover fewer
than 30% of all user preferences through active interaction. These results
highlight the challenges of building agents that are not just capable task
executors, but true collaborative partners. UserBench offers an interactive
environment to measure and advance this critical capability.