Персонализация конфиденциальности мобильного GUI-агента с оптимизацией предпочтений на основе траекторий

Аннотация

Мобильные агенты с графическим интерфейсом, основанные на мультимодальных больших языковых моделях (MLLM), способны выполнять сложные задачи на мобильных устройствах. Несмотря на этот прогресс, большинство существующих систем по-прежнему оптимизируют успешность или эффективность задач, игнорируя персонализацию конфиденциальности пользователей. В данной статье мы исследуем часто упускаемую проблему персонализации агентов. Мы наблюдаем, что персонализация может вызывать системную структурную гетерогенность в траекториях выполнения. Например, пользователи, ориентированные на конфиденциальность, часто предпочитают защитные действия, такие как отказ в разрешениях, выход из системы и минимизация раскрытия данных, что приводит к логически отличным траекториям выполнения по сравнению с пользователями, ориентированными на функциональность. Такие траектории переменной длины и структурно разные делают стандартную оптимизацию предпочтений нестабильной и менее информативной. Для решения этой проблемы мы предлагаем Оптимизацию предпочтений на основе траекторий (TIPO), которая использует взвешивание по интенсивности предпочтений для выделения ключевых шагов, связанных с конфиденциальностью, и гейтирование заполнения для подавления шума выравнивания. Результаты на нашем наборе данных Privacy Preference Dataset показывают, что TIPO улучшает соответствие персонализации и ее различение, сохраняя при этом высокую выполнимость задач, достигая 65,60% SR, 46,22% Compliance и 66,67% PD, превосходя существующие методы оптимизации в различных задачах GUI. Код и набор данных будут общедоступны по адресу https://github.com/Zhixin-L/TIPO.

English

Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.

Персонализация конфиденциальности мобильного GUI-агента с оптимизацией предпочтений на основе траекторий

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Аннотация

Support