KnowU-Bench: Rumo à Avaliação Interativa, Proativa e Personalizada de Agentes Móveis
KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation
April 9, 2026
Autores: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Resumo
Agentes móveis personalizados que inferem preferências do usuário e calibram assistência proativa têm grande potencial como assistentes digitais do quotidiano, mas os benchmarks existentes não conseguem capturar o que isso exige. Trabalhos anteriores avaliam a recuperação de preferências a partir de históricos estáticos ou a previsão de intenções a partir de contextos fixos. Nenhum deles testa se um agente pode elicitar preferências em falta através da interação, nem se pode decidir quando intervir, solicitar consentimento ou permanecer silencioso num ambiente gráfico (GUI) ativo. Apresentamos o KnowU-Bench, um benchmark online para agentes móveis personalizados, construído sobre um ambiente de emulação Android reproduzível, abrangendo 42 tarefas gerais de GUI, 86 tarefas personalizadas e 64 tarefas proativas. Diferentemente de trabalhos anteriores que tratam as preferências do usuário como contexto estático, o KnowU-Bench oculta o perfil do usuário do agente e expõe apenas registos comportamentais, forçando uma inferência genuína de preferências em vez de uma simples consulta de contexto. Para suportar a elicitação de preferências em múltiplos turnos, ele instancia um simulador de usuário baseado em LLM e ancorado em perfis estruturados, permitindo diálogos realistas de clarificação e gestão proativa de consentimento. Para além da personalização, o KnowU-Bench fornece uma avaliação abrangente da cadeia de decisão proativa completa, incluindo execução fundamentada em GUI, negociação de consentimento e contenção pós-rejeição, avaliada através de um protocolo híbrido que combina verificação baseada em regras com pontuação por LLM-como-Juiz. As nossas experiências revelam uma degradação impressionante: agentes que se destacam na execução explícita de tarefas caem para abaixo de 50% de eficácia sob instruções vagas que exigem inferência de preferências do usuário ou calibração de intervenção, mesmo para modelos de ponta como o Claude Sonnet 4.6. Os principais estrangulamentos não são a navegação na GUI, mas a aquisição de preferências e a calibração da intervenção, expondo uma lacuna fundamental entre a operação competente da interface e uma assistência pessoal verdadeiramente confiável.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.