HomeSafe-Bench: Оценка моделей «визуальный язык» на способность обнаружения опасных действий для воплощенных агентов в домашних сценариях
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
March 12, 2026
Авторы: Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu
cs.AI
Аннотация
Быстрая эволюция воплощенных агентов ускорила внедрение домашних роботов в реальные условия. Однако, в отличие от структурированных промышленных сред, домашние пространства создают непредсказуемые риски безопасности, где системные ограничения, такие как задержки восприятия и отсутствие фоновых знаний, могут приводить к опасным ошибкам. Современные методы оценки безопасности, часто ограниченные статичными изображениями, текстом или общими опасностями, не позволяют адекватно тестировать обнаружение динамических небезопасных действий в этих специфических контекстах. Чтобы заполнить этот пробел, мы представляем HomeSafe-Bench — сложный бенчмарк, предназначенный для оценки моделей «визуальный язык» (VLM) в задачах обнаружения небезопасных действий в домашних сценариях. HomeSafe-Bench создан с помощью гибридного конвейера, сочетающего физическое моделирование с продвинутой генерацией видео, и включает 438 разнообразных случаев по шести функциональным зонам с детализированными многомерными аннотациями. Помимо бенчмаркинга, мы предлагаем HD-Guard — иерархическую потоковую архитектуру для мониторинга безопасности в реальном времени. HD-Guard координирует легковесный «Быстрый мозг» для непрерывного высокочастотного сканирования с асинхронным крупномасштабным «Медленным мозгом» для глубокого мультимодального анализа, эффективно балансируя между скоростью вывода и точностью обнаружения. Оценки показывают, что HD-Guard достигает превосходного компромисса между задержкой и производительностью, а наш анализ выявляет ключевые узкие места в современных системах безопасности на основе VLM.
English
The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.