Personalizzazione della Privacy dell'Agente GUI Mobile con Ottimizzazione delle Preferenze Indotta dalla Traiettoria
Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization
April 13, 2026
Autori: Zhixin Lin, Jungang Li, Dongliang Xu, Shidong Pan, Yibo Shi, Yuchi Liu, Yuecong Min, Yue Yao
cs.AI
Abstract
Gli agenti GUI mobili alimentati da Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) possono eseguire compiti complessi su dispositivi mobili. Nonostante questi progressi, la maggior parte dei sistemi esistenti ottimizza ancora il successo o l'efficienza del compito, trascurando la personalizzazione della privacy degli utenti. In questo articolo, studiamo il problema spesso trascurato della personalizzazione degli agenti. Osserviamo che la personalizzazione può indurre un'eterogeneità strutturale sistematica nelle traiettorie di esecuzione. Ad esempio, gli utenti orientati alla privacy spesso preferiscono azioni protettive, come rifiutare le autorizzazioni, effettuare il logout e minimizzare l'esposizione, portando a traiettorie di esecuzione logicamente diverse da quelle degli utenti orientati all'utilità. Tali traiettorie a lunghezza variabile e strutturalmente diverse rendono l'ottimizzazione delle preferenze standard instabile e meno informativa. Per affrontare questo problema, proponiamo la Trajectory Induced Preference Optimization (TIPO), che utilizza una ponderazione dell'intensità delle preferenze per enfatizzare i passaggi chiave relativi alla privacy e un gate di riempimento (padding gating) per sopprimere il rumore di allineamento. I risultati sul nostro Privacy Preference Dataset mostrano che TIPO migliora l'allineamento e la distinzione della personalità, preservando al contempo una forte eseguibilità del compito, raggiungendo il 65,60% di SR, il 46,22% di Compliance e il 66,67% di PD, superando i metodi di ottimizzazione esistenti in varie attività GUI. Il codice e il dataset saranno rilasciati pubblicamente su https://github.com/Zhixin-L/TIPO.
English
Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.