ChatPaper.aiChatPaper

KnowU-Bench: Op weg naar interactieve, proactieve en gepersonaliseerde evaluatie van mobiele agents

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

April 9, 2026
Auteurs: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

Samenvatting

Gepersonaliseerde mobiele agents die gebruikersvoorkeuren afleiden en proactieve ondersteuning afstemmen, houden grote belofte in als alledaagse digitale assistenten. Toch slagen bestaande benchmarks er niet in vast te leggen wat dit vereist. Eerder werk evalueert het herstellen van voorkeuren uit statische geschiedenissen of intentievoorspelling uit vaste contexten. Geen van beide test of een agent ontbrekende voorkeuren kan achterhalen via interactie, noch of deze kan beslissen wanneer hij moet ingrijpen, toestemming moet vragen of stil moet blijven in een live GUI-omgeving. Wij introduceren KnowU-Bench, een online benchmark voor gepersonaliseerde mobiele agents, gebouwd op een reproduceerbare Android-emulatieomgeving. Deze omvat 42 algemene GUI-taken, 86 gepersonaliseerde taken en 64 proactieve taken. In tegenstelling tot eerder werk dat gebruikersvoorkeuren als statische context behandelt, verbergt KnowU-Bench het gebruikersprofiel voor de agent en toont het alleen gedragslogboeken, wat echte voorkeursafleiding afdwingt in plaats van contextopzoeking. Om meerronde voorkeursbepaling te ondersteunen, instantieert het een door LLM aangedreven gebruikerssimulator die is gebaseerd op gestructureerde profielen, waardoor realistische verduidelijkingsdialogen en proactieve toestemmingsafhandeling mogelijk worden. Naast personalisatie biedt KnowU-Bench een uitgebreide evaluatie van de volledige proactieve beslissingsketen, inclusief gegronde GUI-uitvoering, toestemmingsonderhandeling en terughoudendheid na afwijzing, geëvalueerd via een hybride protocol dat regelgebaseerde verificatie combineert met LLM-as-a-Judge-beoordeling. Onze experimenten tonen een opvallende achteruitgang: agents die uitblinken in expliciete taakuitvoering, presteren onder vage instructies die gebruikersvoorkeursafleiding of interventiecalibratie vereisen, zelfs voor topmodellen zoals Claude Sonnet 4.6, onder de 50%. De belangrijkste knelpunten zijn niet GUI-navigatie, maar voorkeursverwerving en interventiecalibratie, wat een fundamentele kloof blootlegt tussen bekwaam interfacegebruik en betrouwbare persoonlijke assistentie.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.
PDF412April 13, 2026