ChatPaper.aiChatPaper

KnowU-Bench: Auf dem Weg zur interaktiven, proaktiven und personalisierten Evaluation mobiler Agenten

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

April 9, 2026
Autoren: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

Zusammenfassung

Personalisierte mobile Agenten, die Nutzerpräferenzen inferieren und proaktive Unterstützung kalibrieren, bergen großes Potenzial als alltägliche digitale Assistenten. Bisherige Benchmarks erfassen jedoch nicht, was dies erfordert. Bestehende Arbeiten evaluieren entweder die Präferenzermittlung aus statischen Verläufen oder die Absichtsprognose in festen Kontexten. Keiner dieser Ansätze testet, ob ein Agent fehlende Präferenzen durch Interaktion ermitteln kann oder ob er in einer live-GUI-Umgebung entscheiden kann, wann er eingreifen, Zustimmung einholen oder schweigen soll. Wir stellen KnowU-Bench vor, einen Online-Benchmark für personalisierte mobile Agenten, der auf einer reproduzierbaren Android-Emulationsumgebung aufbaut und 42 allgemeine GUI-Aufgaben, 86 personalisierte Aufgaben und 64 proaktive Aufgaben abdeckt. Im Gegensatz zu früheren Arbeiten, die Nutzerpräferenzen als statischen Kontext behandeln, verbirgt KnowU-Bench das Nutzerprofil vor dem Agenten und gibt nur Verhaltenslogs preis, was echte Präferenzinferenz anstelle von Kontextabfragen erzwingt. Um mehrschrittige Präferenzermittlung zu unterstützen, instanziiert es einen LLM-gesteuerten Nutzersimulator, der auf strukturierten Profilen basiert und realistische Klärungsdialoge sowie proaktive Zustimmungsabwicklung ermöglicht. Über Personalisierung hinaus bietet KnowU-Bench eine umfassende Evaluation der vollständigen proaktiven Entscheidungskette, einschließlich fundierter GUI-Ausführung, Zustimmungsaushandlung und Zurückhaltung nach Ablehnung, evaluiert durch ein hybrides Protokoll, das regelbasierte Verifizierung mit LLM-as-a-Judge-Bewertung kombiniert. Unsere Experimente zeigen einen frappierenden Leistungseinbruch: Agenten, die bei expliziten Aufgaben excellieren, fallen unter 50 %, wenn vage Anweisungen Präferenzinferenz oder Eingriffskalibrierung erfordern – selbst bei Spitzenmodellen wie Claude Sonnet 4.6. Die Kernengpässe liegen nicht in der GUI-Navigation, sondern in der Präferenzakquise und Eingriffskalibrierung, was eine fundamentale Lücke zwischen kompetenter Bedienung und vertrauenswürdiger persönlicher Assistenz offenlegt.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.
PDF331April 11, 2026