KnowU-Bench: Verso una valutazione interattiva, proattiva e personalizzata degli agenti mobili
KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation
April 9, 2026
Autori: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Abstract
Gli agenti mobili personalizzati in grado di inferire le preferenze utente e calibrare l'assistenza proattiva sono estremamente promettenti come assistenti digitali quotidiani, ma i benchmark esistenti non colgono ciò che questo richiede. I lavori precedenti valutano il recupero delle preferenze da cronologie statiche o la previsione delle intenzioni da contesti fissi. Nessuno dei due approcci verifica se un agente possa elicitarre preferenze mancanti tramite l'interazione, né se possa decidere quando intervenire, richiedere il consenso o rimanere in silenzio in un ambiente GUI live. Introduciamo KnowU-Bench, un benchmark online per agenti mobili personalizzati costruito su un ambiente di emulazione Android riproducibile, che copre 42 attività GUI generiche, 86 attività personalizzate e 64 attività proattive. A differenza dei lavori precedenti che trattano le preferenze utente come contesto statico, KnowU-Bench nasconde il profilo utente all'agente ed espone solo i log comportamentali, forzando una genuina inferenza delle preferenze anziché una semplice consultazione del contesto. Per supportare l'elicitation multiruolo delle preferenze, istanzia un simulatore utente guidato da LLM ancorato a profili strutturati, abilitando dialoghi realistici di chiarimento e una gestione proattiva del consenso. Oltre alla personalizzazione, KnowU-Bench fornisce una valutazione completa della catena decisionale proattiva completa, inclusa l'esecuzione GUI ancorata al contesto, la negoziazione del consenso e l'autolimitazione post-rifiuto, valutata attraverso un protocollo ibrido che combina verifica basata su regole con punteggi LLM-as-a-Judge. I nostri esperimenti rivelano un degrado sorprendente: agenti che eccellono nell'esecuzione esplicita di compiti scendono sotto il 50% con istruzioni vaghe che richiedono inferenza delle preferenze utente o calibrazione degli interventi, persino per modelli all'avanguardia come Claude Sonnet 4.6. I colli di bottiglia principali non sono la navigazione GUI ma l'acquisizione delle preferenze e la calibrazione degli interventi, esponendo un divario fondamentale tra la competente operatività dell'interfaccia e l'assistenza personale affidabile.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.