Personalização de Privacidade em Agentes de Interface Gráfica Móvel com Otimização de Preferências Induzidas por Trajetória

Resumo

Os agentes de interface gráfica móvel (GUI) alimentados por Modelos de Linguagem Multimodais de Grande Porte (MLLMs) podem executar tarefas complexas em dispositivos móveis. Apesar desse progresso, a maioria dos sistemas existentes ainda otimiza o sucesso ou a eficiência da tarefa, negligenciando a personalização da privacidade dos usuários. Neste artigo, estudamos o problema frequentemente negligenciado da personalização do agente. Observamos que a personalização pode induzir heterogeneidade estrutural sistemática nas trajetórias de execução. Por exemplo, usuários com prioridade à privacidade frequentemente preferem ações protetoras, como recusar permissões, encerrar sessões e minimizar a exposição, levando a trajetórias de execução logicamente diferentes das dos usuários com prioridade à utilidade. Tais trajetórias de comprimento variável e estruturalmente diferentes tornam a otimização padrão de preferências instável e menos informativa. Para resolver esse problema, propomos a Otimização de Preferências Induzida por Trajetória (TIPO), que usa ponderação de intensidade de preferência para enfatizar etapas-chave relacionadas à privacidade e um portão de preenchimento para suprimir o ruído de alinhamento. Os resultados em nosso Conjunto de Dados de Preferência de Privacidade mostram que o TIPO melhora o alinhamento e a distinção da persona, preservando uma forte capacidade de execução de tarefas, alcançando 65,60% de SR, 46,22% de Conformidade e 66,67% de PD, superando os métodos de otimização existentes em várias tarefas de GUI. O código e o conjunto de dados serão disponibilizados publicamente em https://github.com/Zhixin-L/TIPO.

English

Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.

Personalização de Privacidade em Agentes de Interface Gráfica Móvel com Otimização de Preferências Induzidas por Trajetória

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Resumo

Support