ChatPaper.aiChatPaper

KnowU-Bench: Hacia una evaluación de agentes móviles interactiva, proactiva y personalizada

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

April 9, 2026
Autores: Tongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

Resumen

Los agentes móviles personalizados que infieren las preferencias del usuario y calibran la asistencia proactiva tienen un gran potencial como asistentes digitales cotidianos; sin embargo, los puntos de referencia existentes no logran capturar lo que esto requiere. Trabajos previos evalúan la recuperación de preferencias a partir de historiales estáticos o la predicción de intenciones en contextos fijos. Ninguno prueba si un agente puede obtener preferencias faltantes mediante la interacción, ni si puede decidir cuándo intervenir, solicitar consentimiento o permanecer silencioso en un entorno GUI en tiempo real. Presentamos KnowU-Bench, un punto de referencia en línea para agentes móviles personalizados construido sobre un entorno de emulación Android reproducible, que abarca 42 tareas generales de GUI, 86 tareas personalizadas y 64 tareas proactivas. A diferencia de trabajos anteriores que tratan las preferencias del usuario como contexto estático, KnowU-Bench oculta el perfil del usuario al agente y solo expone registros de comportamiento, forzando una inferencia genuina de preferencias en lugar de una búsqueda de contexto. Para apoyar la obtención de preferencias en múltiples turnos, instancia un simulador de usuario basado en LLM fundamentado en perfiles estructurados, permitiendo diálogos de clarificación realistas y manejo proactivo del consentimiento. Más allá de la personalización, KnowU-Bench proporciona una evaluación integral de la cadena completa de decisiones proactivas, incluyendo la ejecución fundamentada en GUI, la negociación del consentimiento y la contención posterior al rechazo, evaluada mediante un protocolo híbrido que combina verificación basada en reglas con puntuación de LLM-como-Juez. Nuestros experimentos revelan una degradación sorprendente: los agentes que sobresalen en la ejecución explícita de tareas caen por debajo del 50% bajo instrucciones vagas que requieren inferencia de preferencias del usuario o calibración de intervención, incluso para modelos de vanguardia como Claude Sonnet 4.6. Los cuellos de botella principales no son la navegación GUI, sino la adquisición de preferencias y la calibración de la intervención, exponiendo una brecha fundamental entre la operación competente de la interfaz y la asistencia personalizada confiable.
English
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.
PDF331April 11, 2026