OS-Sentinel: 現実的なワークフローにおけるハイブリッド検証による安全性強化型モバイルGUIエージェントの実現へ
OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows
October 28, 2025
著者: Qiushi Sun, Mukai Li, Zhoumianze Liu, Zhihui Xie, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong
cs.AI
要旨
視覚言語モデル(VLM)を搭載したコンピュータ操作エージェントは、モバイルプラットフォームなどのデジタル環境において人間並みの操作能力を実証しています。これらのエージェントはデジタル自動化の進展に大きな可能性を秘める一方、システム侵害やプライバシー漏洩といった安全でない操作の危険性が重大な懸念事項として浮上しています。モバイル環境の広大かつ複雑な操作空間において、これらの安全性問題を検出することは極めて困難な課題であり、現在も重要な研究領域として未開拓の状態が続いています。
モバイルエージェントの安全性研究の基盤を確立するため、我々はMobileRisk-Liveを提案します。これは動的なサンドボックス環境と、詳細な注釈付きの現実的な軌跡から構成される安全性検出ベンチマークを備えています。これを基盤として、OS-Sentinelという新規ハイブリッド安全性検出フレームワークを開発しました。このフレームワークは、明示的なシステムレベル違反を検出する形式検証器(Formal Verifier)と、文脈的リスク及びエージェント行動を評価するVLMベースの文脈判別器(Contextual Judge)を相補的に統合しています。
実験結果では、OS-Sentinelが複数の評価指標において既存手法より10%〜30%の性能向上を達成することが示されています。さらに詳細な分析を通じて、より安全で信頼性の高い自律モバイルエージェントの開発に寄与する重要な知見を提供します。
English
Computer-using agents powered by Vision-Language Models (VLMs) have
demonstrated human-like capabilities in operating digital environments like
mobile platforms. While these agents hold great promise for advancing digital
automation, their potential for unsafe operations, such as system compromise
and privacy leakage, is raising significant concerns. Detecting these safety
concerns across the vast and complex operational space of mobile environments
presents a formidable challenge that remains critically underexplored. To
establish a foundation for mobile agent safety research, we introduce
MobileRisk-Live, a dynamic sandbox environment accompanied by a safety
detection benchmark comprising realistic trajectories with fine-grained
annotations. Built upon this, we propose OS-Sentinel, a novel hybrid safety
detection framework that synergistically combines a Formal Verifier for
detecting explicit system-level violations with a VLM-based Contextual Judge
for assessing contextual risks and agent actions. Experiments show that
OS-Sentinel achieves 10%-30% improvements over existing approaches across
multiple metrics. Further analysis provides critical insights that foster the
development of safer and more reliable autonomous mobile agents.