HomeSafe-Bench: 가정 환경에서 구현된 에이전트의 위험 행동 감지를 위한 비전-언어 모델 평가
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
March 12, 2026
저자: Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu
cs.AI
초록
구현 에이전트의 급속한 발전으로 가정용 로봇의 실제 환경 배치가 가속화되고 있습니다. 그러나 구조화된 산업 현장과 달리, 가정 공간은 예측 불가능한 안전 위험을 내포하며 인지 지연이나 상식 지식 부족과 같은 시스템 한계로 인해 위험한 오류가 발생할 수 있습니다. 정적 이미지, 텍스트 또는 일반적 위험에 국한된 기존 안전성 평가는 이러한 특수 맥락에서 동적 위험 행동 감지를 적절히 벤치마킹하지 못합니다. 이러한 격차를 해소하기 위해 본 연구는 가정 환경 내 위험 행동 감지에서 비전-언어 모델(VLM) 성능을 평가하기 위해 설계된 도전적 벤치마크인 HomeSafe-Bench을 소개합니다. HomeSafe-Bench는 물리 시뮬레이션과 첨단 영상 생성 기술을 결합한 하이브리드 파이프라인을 통해 구축되었으며, 6개 기능 영역에서 438개의 다양한 사례를 다차원적 세부 주석과 함께 제공합니다. 벤치마킹을 넘어, 본 연구는 실시간 안전 모니터링을 위한 계층적 스트리밍 아키텍처인 HD-Guard(계층적 이중 두뇌 가정 안전 보호 시스템)를 제안합니다. HD-Guard는 경량 FastBrain을 통한 연속 고주파 스크리닝과 비동기적 대규모 SlowBrain을 통한 심층 다중 모드 추론을協調하여 추론 효율성과 감지 정확도 간의 균형을 효과적으로 달성합니다. 평가 결과 HD-Guard는 대기 시간과 성능 간 우수한 균형을 보여주는 반면, 분석을 통해 현재 VLM 기반 안전 감지의 주요 병목 현상을 규명합니다.
English
The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.