OS-Sentinel: Op weg naar veiligere mobiele GUI-agents via hybride validatie in realistische workflows
OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows
October 28, 2025
Auteurs: Qiushi Sun, Mukai Li, Zhoumianze Liu, Zhihui Xie, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong
cs.AI
Samenvatting
Vision-Language Model (VLM)-aangedreven agents die computers gebruiken, hebben mensachtige capaciteiten getoond bij het bedienen van digitale omgevingen zoals mobiele platforms. Hoewel deze agents grote belofte inhouden voor het bevorderen van digitale automatisering, roept hun potentieel voor onveilige handelingen, zoals systeeminbraak en privacylekken, aanzienlijke bezorgdheid op. Het detecteren van deze veiligheidsrisico's in de uitgestrekte en complexe operationele ruimte van mobiele omgevingen vormt een formidabele uitdaging die kritisch onderbelicht is gebleven. Om een basis te leggen voor onderzoek naar de veiligheid van mobiele agents, introduceren we MobileRisk-Live, een dynamische sandbox-omgeving vergezeld van een veiligheidsdetectiebenchmark die realistische trajecten met gedetailleerde annotaties omvat. Hierop voortbouwend stellen we OS-Sentinel voor, een nieuw hybride veiligheidsdetectiekader dat een Formele Verifier voor het detecteren van expliciete systeemniveau-overtredingen synergetisch combineert met een op VLM gebaseerde Contextuele Beoordelaar voor het inschatten van contextuele risico's en agentacties. Experimenten tonen aan dat OS-Sentinel 10%-30% verbeteringen bereikt ten opzichte van bestaande benaderingen over meerdere metrieken. Verdere analyse verschaft kritische inzichten die de ontwikkeling van veiligere en betrouwbaardere autonome mobiele agents bevorderen.
English
Computer-using agents powered by Vision-Language Models (VLMs) have
demonstrated human-like capabilities in operating digital environments like
mobile platforms. While these agents hold great promise for advancing digital
automation, their potential for unsafe operations, such as system compromise
and privacy leakage, is raising significant concerns. Detecting these safety
concerns across the vast and complex operational space of mobile environments
presents a formidable challenge that remains critically underexplored. To
establish a foundation for mobile agent safety research, we introduce
MobileRisk-Live, a dynamic sandbox environment accompanied by a safety
detection benchmark comprising realistic trajectories with fine-grained
annotations. Built upon this, we propose OS-Sentinel, a novel hybrid safety
detection framework that synergistically combines a Formal Verifier for
detecting explicit system-level violations with a VLM-based Contextual Judge
for assessing contextual risks and agent actions. Experiments show that
OS-Sentinel achieves 10%-30% improvements over existing approaches across
multiple metrics. Further analysis provides critical insights that foster the
development of safer and more reliable autonomous mobile agents.