OS-Sentinel: Rumo a Agentes de Interface Gráfica Móvel com Segurança Aprimorada por meio de Validação Híbrida em Fluxos de Trabalho Realistas
OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows
October 28, 2025
Autores: Qiushi Sun, Mukai Li, Zhoumianze Liu, Zhihui Xie, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong
cs.AI
Resumo
Agentes computacionais que utilizam modelos visão-linguagem (VLMs) têm demonstrado capacidades semelhantes às humanas na operação de ambientes digitais, como plataformas móveis. Embora esses agentes sejam muito promissores para o avanço da automação digital, seu potencial para operações inseguras, como comprometimento do sistema e vazamento de privacidade, está levantando preocupações significativas. Detectar esses problemas de segurança no vasto e complexo espaço operacional dos ambientes móveis representa um desafio formidável que permanece criticamente subexplorado. Para estabelecer uma base para a pesquisa em segurança de agentes móveis, apresentamos o MobileRisk-Live, um ambiente de sandbox dinâmico acompanhado por um benchmark de detecção de segurança composto por trajetórias realistas com anotações granulares. Com base nisso, propomos o OS-Sentinel, uma nova estrutura híbrida de detecção de segurança que combina sinergicamente um Verificador Formal para detectar violações explícitas em nível de sistema com um Juiz Contextual baseado em VLM para avaliar riscos contextuais e ações do agente. Experimentos mostram que o OS-Sentinel alcança melhorias de 10% a 30% em relação às abordagens existentes em múltiplas métricas. Uma análise mais aprofundada fornece insights críticos que fomentam o desenvolvimento de agentes móveis autônomos mais seguros e confiáveis.
English
Computer-using agents powered by Vision-Language Models (VLMs) have
demonstrated human-like capabilities in operating digital environments like
mobile platforms. While these agents hold great promise for advancing digital
automation, their potential for unsafe operations, such as system compromise
and privacy leakage, is raising significant concerns. Detecting these safety
concerns across the vast and complex operational space of mobile environments
presents a formidable challenge that remains critically underexplored. To
establish a foundation for mobile agent safety research, we introduce
MobileRisk-Live, a dynamic sandbox environment accompanied by a safety
detection benchmark comprising realistic trajectories with fine-grained
annotations. Built upon this, we propose OS-Sentinel, a novel hybrid safety
detection framework that synergistically combines a Formal Verifier for
detecting explicit system-level violations with a VLM-based Contextual Judge
for assessing contextual risks and agent actions. Experiments show that
OS-Sentinel achieves 10%-30% improvements over existing approaches across
multiple metrics. Further analysis provides critical insights that foster the
development of safer and more reliable autonomous mobile agents.