OS-Sentinel: Rumo a Agentes de Interface Gráfica Móvel com Segurança Aprimorada por meio de Validação Híbrida em Fluxos de Trabalho Realistas

Resumo

Agentes computacionais que utilizam modelos visão-linguagem (VLMs) têm demonstrado capacidades semelhantes às humanas na operação de ambientes digitais, como plataformas móveis. Embora esses agentes sejam muito promissores para o avanço da automação digital, seu potencial para operações inseguras, como comprometimento do sistema e vazamento de privacidade, está levantando preocupações significativas. Detectar esses problemas de segurança no vasto e complexo espaço operacional dos ambientes móveis representa um desafio formidável que permanece criticamente subexplorado. Para estabelecer uma base para a pesquisa em segurança de agentes móveis, apresentamos o MobileRisk-Live, um ambiente de sandbox dinâmico acompanhado por um benchmark de detecção de segurança composto por trajetórias realistas com anotações granulares. Com base nisso, propomos o OS-Sentinel, uma nova estrutura híbrida de detecção de segurança que combina sinergicamente um Verificador Formal para detectar violações explícitas em nível de sistema com um Juiz Contextual baseado em VLM para avaliar riscos contextuais e ações do agente. Experimentos mostram que o OS-Sentinel alcança melhorias de 10% a 30% em relação às abordagens existentes em múltiplas métricas. Uma análise mais aprofundada fornece insights críticos que fomentam o desenvolvimento de agentes móveis autônomos mais seguros e confiáveis.

English

Computer-using agents powered by Vision-Language Models (VLMs) have demonstrated human-like capabilities in operating digital environments like mobile platforms. While these agents hold great promise for advancing digital automation, their potential for unsafe operations, such as system compromise and privacy leakage, is raising significant concerns. Detecting these safety concerns across the vast and complex operational space of mobile environments presents a formidable challenge that remains critically underexplored. To establish a foundation for mobile agent safety research, we introduce MobileRisk-Live, a dynamic sandbox environment accompanied by a safety detection benchmark comprising realistic trajectories with fine-grained annotations. Built upon this, we propose OS-Sentinel, a novel hybrid safety detection framework that synergistically combines a Formal Verifier for detecting explicit system-level violations with a VLM-based Contextual Judge for assessing contextual risks and agent actions. Experiments show that OS-Sentinel achieves 10%-30% improvements over existing approaches across multiple metrics. Further analysis provides critical insights that foster the development of safer and more reliable autonomous mobile agents.

OS-Sentinel: Rumo a Agentes de Interface Gráfica Móvel com Segurança Aprimorada por meio de Validação Híbrida em Fluxos de Trabalho Realistas

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Resumo

Support