ChatPaper.aiChatPaper

KnowU-Bench: в сторону интерактивной, проактивной и персонализированной оценки мобильных агентов

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

April 9, 2026
Авторы: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

Аннотация

Персонализированные мобильные агенты, способные выявлять пользовательские предпочтения и калибровать проактивную помощь, обладают огромным потенциалом в качестве повседневных цифровых помощников, однако существующие бенчмарки не отражают необходимые для этого требования. Предыдущие работы оценивают восстановление предпочтений по статичной истории или прогнозирование намерений в фиксированных контекстах. Ни один из подходов не проверяет, может ли агент выявлять недостающие предпочтения в процессе взаимодействия, а также способен ли он решать, когда следует вмешаться, запросить согласие или оставаться пассивным в реальной GUI-среде. Мы представляем KnowU-Bench — онлайн-бенчмарк для персонализированных мобильных агентов, построенный на воспроизводимой эмуляционной среде Android и охватывающий 42 общие GUI-задачи, 86 персонализированных задач и 64 проактивные задачи. В отличие от предыдущих работ, рассматривающих пользовательские предпочтения как статичный контекст, KnowU-Bench скрывает профиль пользователя от агента и предоставляет лишь журналы поведения, вынуждая агент проводить подлинный вывод предпочтений вместо поиска в контексте. Для поддержки многошагового выявления предпочтений бенчмарк реализует симулятор пользователя на основе LLM, основанный на структурированных профилях, что позволяет вести реалистичные уточняющие диалоги и обрабатывать проактивные запросы согласия. Помимо персонализации, KnowU-Bench обеспечивает комплексную оценку полной цепи проактивных решений, включая выполнение действий в GUI, согласование согласия и сдерживание после отказа, оцениваемую по гибридному протоколу, сочетающему проверку на основе правил с оценкой LLM-as-a-Judge. Наши эксперименты выявляют резкое снижение эффективности: агенты, превосходно выполняющие явные задачи, показывают результат ниже 50% при нечетких инструкциях, требующих вывода пользовательских предпочтений или калибровки вмешательства, даже для передовых моделей вроде Claude Sonnet 4.6. Ключевыми узкими местами являются не навигация в GUI, а приобретение предпочтений и калибровка вмешательства, что обнажает фундаментальный разрыв между компетентным управлением интерфейсом и надежной персональной помощью.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.
PDF331April 11, 2026