Personalisierung der Privatsphäre mobiler GUI-Agenten durch trajektorieninduzierte Präferenzoptimierung

Zusammenfassung

Mobile-GUI-Agents, die von multimodalen großen Sprachmodellen (MLLMs) angetrieben werden, können komplexe Aufgaben auf Mobilgeräten ausführen. Trotz dieser Fortschritte optimieren die meisten bestehenden Systeme weiterhin die Aufgabenausführung oder Effizienz und vernachlässigen dabei die Privatsphären-Personalisierung der Nutzer. In dieser Arbeit untersuchen wir das häufig übersehene Problem der Agenten-Personalisierung. Wir beobachten, dass Personalisierung systematische strukturelle Heterogenität in Ausführungspfaden verursachen kann. Beispielsweise bevorzugen privatsphärenorientierte Nutzer oft schützende Aktionen, wie das Verweigern von Berechtigungen, Abmelden und die Minimierung von Datenpreisgabe, was zu logisch unterschiedlichen Ausführungspfaden im Vergleich zu nutzenorientierten Nutzern führt. Solche variablen und strukturell unterschiedlichen Pfade machen Standard-Präferenzoptimierung instabil und weniger aussagekräftig. Um dieses Problem zu adressieren, schlagen wir Trajectory Induced Preference Optimization (TIPO) vor, das Präferenzintensitätsgewichtung zur Betonung privatsphärenrelevanter Schritte und Padding-Gating zur Unterdrückung von Ausrichtungsrauschen verwendet. Ergebnisse auf unserem Privacy Preference Dataset zeigen, dass TIPO die Personenausrichtung und -unterscheidung verbessert und gleichzeitig eine hohe Aufgabenausführbarkeit beibehält, mit 65,60 % SR, 46,22 % Compliance und 66,67 % PD, was bestehende Optimierungsmethoden bei verschiedenen GUI-Aufgaben übertrifft. Der Code und der Datensatz werden unter https://github.com/Zhixin-L/TIPO öffentlich zugänglich gemacht.

English

Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.

Personalisierung der Privatsphäre mobiler GUI-Agenten durch trajektorieninduzierte Präferenzoptimierung

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Zusammenfassung

Support