PersonalAlign: Allineamento Gerarchico Implicito degli Intent per Agenti GUI Personalizzati con Registri Ucentrici a Lungo Termine

Abstract

Sebbene gli agenti GUI abbiano dimostrato prestazioni solide con istruzioni esplicite e di completamento, il dispiegamento nel mondo reale richiede l'allineamento con le intenzioni implicite più complesse degli utenti. In questo lavoro, proponiamo l'Allineamento Gerarchico delle Intenzioni Implicite per Agenti GUI Personalizzati (PersonalAlign), un nuovo compito per agenti che richiede di sfruttare i record utente a lungo termine come contesto persistente per risolvere le preferenze omesse in istruzioni vaghe e anticipare routine latenti in base allo stato dell'utente per un'assistenza proattiva. Per facilitare questo studio, introduciamo AndroidIntent, un benchmark progettato per valutare la capacità degli agenti di risolvere istruzioni vaghe e fornire suggerimenti proattivi ragionando su record utente a lungo termine. Abbiamo annotato 775 preferenze specifiche per utente e 215 routine da 20.000 record a lungo termine di diversi utenti per la valutazione. Inoltre, introduciamo l'agente a Memoria delle Intenzioni Gerarchica (HIM-Agent), che mantiene una memoria personale in aggiornamento continuo e organizza gerarchicamente preferenze e routine utente per la personalizzazione. Infine, valutiamo una serie di agenti GUI su AndroidIntent, inclusi GPT-5, Qwen3-VL e UI-TARS; i risultati mostrano che HIM-Agent migliora significativamente le prestazioni sia esecutive che proattive rispettivamente del 15,7% e del 7,3%.

English

While GUI agents have shown strong performance under explicit and completion instructions, real-world deployment requires aligning with users' more complex implicit intents. In this work, we highlight Hierarchical Implicit Intent Alignment for Personalized GUI Agent (PersonalAlign), a new agent task that requires agents to leverage long-term user records as persistent context to resolve omitted preferences in vague instructions and anticipate latent routines by user state for proactive assistance. To facilitate this study, we introduce AndroidIntent, a benchmark designed to evaluate agents' ability in resolving vague instructions and providing proactive suggestions through reasoning over long-term user records. We annotated 775 user-specific preferences and 215 routines from 20k long-term records across different users for evaluation. Furthermore, we introduce Hierarchical Intent Memory Agent (HIM-Agent), which maintains a continuously updating personal memory and hierarchically organizes user preferences and routines for personalization. Finally, we evaluate a range of GUI agents on AndroidIntent, including GPT-5, Qwen3-VL, and UI-TARS, further results show that HIM-Agent significantly improves both execution and proactive performance by 15.7% and 7.3%.

PersonalAlign: Allineamento Gerarchico Implicito degli Intent per Agenti GUI Personalizzati con Registri Ucentrici a Lungo Termine

PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Abstract

Support