Personnalisation de la confidentialité de l'agent d'interface graphique mobile par optimisation des préférences induite par la trajectoire

Résumé

Les agents d'interface graphique mobile alimentés par des modèles de langage multimodaux (MLLM) peuvent exécuter des tâches complexes sur les appareils mobiles. Malgré ces progrès, la plupart des systèmes existants optimisent encore la réussite ou l'efficacité des tâches, négligeant la personnalisation de la confidentialité des utilisateurs. Dans cet article, nous étudions le problème souvent négligé de la personnalisation des agents. Nous observons que la personnalisation peut induire une hétérogénéité structurelle systématique dans les trajectoires d'exécution. Par exemple, les utilisateurs privilégiant la confidentialité préfèrent souvent des actions protectrices, comme refuser les autorisations, se déconnecter et minimiser l'exposition, conduisant à des trajectoires d'exécution logiquement différentes de celles des utilisateurs privilégiant l'utilité. Ces trajectoires de longueur variable et structurellement différentes rendent l'optimisation standard des préférences instable et moins informative. Pour résoudre ce problème, nous proposons l'Optimisation des Préférences Induite par la Trajectoire (TIPO), qui utilise une pondération d'intensité des préférences pour mettre en évidence les étapes clés liées à la confidentialité et un verrouillage de remplissage pour supprimer le bruit d'alignement. Les résultats sur notre jeu de données Privacy Preference montrent que TIPO améliore l'alignement et la distinction des personnalités tout en préservant une forte exécutabilité des tâches, atteignant 65,60 % de taux de réussite, 46,22 % de conformité et 66,67 % de distinction des préférences, surpassant les méthodes d'optimisation existantes sur diverses tâches d'interface graphique. Le code et le jeu de données seront publiés publiquement à l'adresse https://github.com/Zhixin-L/TIPO.

English

Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.

Personnalisation de la confidentialité de l'agent d'interface graphique mobile par optimisation des préférences induite par la trajectoire

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Résumé

Support