ChatPaper.aiChatPaper

OS-Sentinel: 현실적 워크플로우 내 하이브리드 검증을 통한 안전성 강화 모바일 GUI 에이전트

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

October 28, 2025
저자: Qiushi Sun, Mukai Li, Zhoumianze Liu, Zhihui Xie, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong
cs.AI

초록

비전-언어 모델(VLM) 기반 컴퓨터 사용 에이전트는 모바일 플랫폼과 같은 디지털 환경 운영에서 인간과 유사한 능력을 보여주고 있습니다. 이러한 에이전트는 디지털 자동화 발전에 큰 가능성을 지니고 있지만, 시스템 침해 및 개인정보 유출과 같은 안전하지 않은 운영 가능성으로 인해 심각한 우려가 제기되고 있습니다. 방대하고 복잡한 모바일 환경 운영 공간 전반에 걸쳐 이러한 안전 문제를 탐지하는 것은 여전히 심각하게 연구가 부족한 어려운 과제입니다. 모바일 에이전트 안전성 연구의 기반을 마련하기 위해, 우리는 상세한 주석이 달린 현실적인 궤적으로 구성된 안전성 탐지 벤치마크와 함께 동적 샌드박스 환경인 MobileRisk-Live를 소개합니다. 이를 기반으로 명시적 시스템 수준 위반 탐지를 위한 형식 검증기(Formal Verifier)와 상황별 위험 및 에이전트 행동 평가를 위한 VLM 기반 상황 판단기(Contextual Judge)를 시너지적으로 결합한 새로운 하이브리드 안전성 탐지 프레임워크인 OS-Sentinel을 제안합니다. 실험 결과, OS-Sentinel은 여러 메트릭에서 기존 접근법 대비 10%-30%의 성능 향상을 달성했습니다. 추가 분석을 통해 더 안전하고 신뢰할 수 있는 자율 모바일 에이전트 개발을 촉진하는 중요한 통찰을 제시합니다.
English
Computer-using agents powered by Vision-Language Models (VLMs) have demonstrated human-like capabilities in operating digital environments like mobile platforms. While these agents hold great promise for advancing digital automation, their potential for unsafe operations, such as system compromise and privacy leakage, is raising significant concerns. Detecting these safety concerns across the vast and complex operational space of mobile environments presents a formidable challenge that remains critically underexplored. To establish a foundation for mobile agent safety research, we introduce MobileRisk-Live, a dynamic sandbox environment accompanied by a safety detection benchmark comprising realistic trajectories with fine-grained annotations. Built upon this, we propose OS-Sentinel, a novel hybrid safety detection framework that synergistically combines a Formal Verifier for detecting explicit system-level violations with a VLM-based Contextual Judge for assessing contextual risks and agent actions. Experiments show that OS-Sentinel achieves 10%-30% improvements over existing approaches across multiple metrics. Further analysis provides critical insights that foster the development of safer and more reliable autonomous mobile agents.
PDF702December 2, 2025