PersonalAlign: Иерархическое неявное согласование намерений для персонализированного GUI-агента с долгосрочными пользовательскими записями
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records
January 14, 2026
Авторы: Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie
cs.AI
Аннотация
Хотя GUI-агенты демонстрируют высокую производительность при работе с явными инструкциями и задачами на завершение, их реальное развертывание требует соответствия более сложным неявным намерениям пользователей. В данной работе мы представляем задачу иерархического согласования неявных намерений для персонализированного GUI-агента (PersonalAlign) — новую задачу, которая требует от агентов использования долгосрочных записей пользователя в качестве постоянного контекста для выявления опущенных предпочтений в расплывчатых инструкциях и предвосхищения латентных рутин на основе состояния пользователя для проактивной помощи. Для содействия этому исследованию мы представляем AndroidIntent — бенчмарк, предназначенный для оценки способности агентов обрабатывать нечеткие инструкции и предоставлять проактивные предложения путем рассуждений на основе долгосрочных записей пользователя. Мы аннотировали 775 пользовательских предпочтений и 215 рутин из 20 тысяч долгосрочных записей различных пользователей для оценки. Кроме того, мы представляем агента с иерархической памятью намерений (HIM-Agent), который поддерживает постоянно обновляемую персональную память и иерархически организует пользовательские предпочтения и рутины для персонализации. Наконец, мы оценили ряд GUI-агентов на AndroidIntent, включая GPT-5, Qwen3-VL и UI-TARS; дополнительные результаты показывают, что HIM-Agent значительно улучшает как исполнительную, так и проактивную производительность на 15,7% и 7,3% соответственно.
English
While GUI agents have shown strong performance under explicit and completion instructions, real-world deployment requires aligning with users' more complex implicit intents. In this work, we highlight Hierarchical Implicit Intent Alignment for Personalized GUI Agent (PersonalAlign), a new agent task that requires agents to leverage long-term user records as persistent context to resolve omitted preferences in vague instructions and anticipate latent routines by user state for proactive assistance. To facilitate this study, we introduce AndroidIntent, a benchmark designed to evaluate agents' ability in resolving vague instructions and providing proactive suggestions through reasoning over long-term user records. We annotated 775 user-specific preferences and 215 routines from 20k long-term records across different users for evaluation. Furthermore, we introduce Hierarchical Intent Memory Agent (HIM-Agent), which maintains a continuously updating personal memory and hierarchically organizes user preferences and routines for personalization. Finally, we evaluate a range of GUI agents on AndroidIntent, including GPT-5, Qwen3-VL, and UI-TARS, further results show that HIM-Agent significantly improves both execution and proactive performance by 15.7% and 7.3%.