Personalización de la Privacidad del Agente de Interfaz Gráfica Móvil con Optimización de Preferencias Inducidas por Trayectoria

Resumen

Los agentes de interfaz gráfica de usuario (GUI) móviles impulsados por Modelos de Lenguaje Multimodales (MLLMs) pueden ejecutar tareas complejas en dispositivos móviles. A pesar de este progreso, la mayoría de los sistemas existentes aún optimizan el éxito o la eficiencia de la tarea, descuidando la personalización de la privacidad del usuario. En este artículo, estudiamos el problema frecuentemente pasado por alto de la personalización de agentes. Observamos que la personalización puede inducir una heterogeneidad estructural sistemática en las trayectorias de ejecución. Por ejemplo, los usuarios orientados a la privacidad a menudo prefieren acciones protectoras, como rechazar permisos, cerrar sesión y minimizar la exposición, lo que genera trayectorias de ejecución lógicamente diferentes a las de los usuarios orientados a la utilidad. Estas trayectorias de longitud variable y estructuralmente diferentes hacen que la optimización estándar de preferencias sea inestable y menos informativa. Para abordar este problema, proponemos la Optimización de Preferencias Inducida por Trayectoria (TIPO), que utiliza ponderación de intensidad de preferencia para enfatizar pasos clave relacionados con la privacidad y compuertas de relleno para suprimir el ruido de alineación. Los resultados en nuestro Conjunto de Datos de Preferencias de Privacidad muestran que TIPO mejora la alineación y distinción de la personalización mientras preserva una fuerte capacidad de ejecución de tareas, logrando un 65.60% de Tasa de Éxito (SR), un 46.22% de Cumplimiento (Compliance) y un 66.67% de Distinción de Personalización (PD), superando a los métodos de optimización existentes en diversas tareas de GUI. El código y el conjunto de datos se publicarán públicamente en https://github.com/Zhixin-L/TIPO.

English

Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.

Personalización de la Privacidad del Agente de Interfaz Gráfica Móvil con Optimización de Preferencias Inducidas por Trayectoria

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Resumen

Support