KnowU-Bench : Vers une évaluation interactive, proactive et personnalisée des agents mobiles
KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation
April 9, 2026
Auteurs: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Résumé
Les agents mobiles personnalisés capables d'inférer les préférences utilisateur et de calibrer une assistance proactive présentent un potentiel considérable en tant qu'assistants numériques quotidiens. Pourtant, les benchmarks existants ne parviennent pas à capturer ce que cela exige. Les travaux antérieurs évaluent la récupération des préférences à partir d'historiques statiques ou la prédiction d'intention à partir de contextes fixes. Aucune de ces approches ne teste si un agent peut obtenir des préférences manquantes par l'interaction, ni s'il peut décider quand intervenir, demander un consentement ou rester silencieux dans un environnement graphique en temps réel. Nous présentons KnowU-Bench, un benchmark en ligne pour agents mobiles personnalisés construit sur un environnement d'émulation Android reproductible, couvrant 42 tâches générales, 86 tâches personnalisées et 64 tâches proactives. Contrairement aux travaux antérieurs qui traitent les préférences utilisateur comme un contexte statique, KnowU-Bench cache le profil utilisateur à l'agent et n'expose que les journaux comportementaux, forçant une véritable inférence des préférences plutôt qu'une simple consultation de contexte. Pour supporter l'obtention des préférences sur plusieurs tours, il instancie un simulateur d'utilisateur piloté par LLM ancré dans des profils structurés, permettant des dialogues de clarification réalistes et une gestion proactive des consentements. Au-delà de la personnalisation, KnowU-Bench fournit une évaluation complète de la chaîne décisionnelle proactive complète, incluant l'exécution ancrée dans l'interface graphique, la négociation du consentement et la retenue post-rejet, évaluée via un protocole hybride combinant la vérification par règles avec une notation LLM-comme-Juge. Nos expériences révèlent une dégradation frappante : les agents excellant dans l'exécution explicite de tâches chutent en dessous de 50% face à des instructions vagues nécessitant une inférence des préférences utilisateur ou un calibrage de l'intervention, même pour des modèles de pointe comme Claude Sonnet 4.6. Les goulots d'étranglement fondamentaux ne résident pas dans la navigation graphique mais dans l'acquisition des préférences et le calibrage des interventions, exposant un écart fondamental entre la maîtrise opérationnelle des interfaces et une assistance personnelle digne de confiance.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.