HomeSafe-Bench: Avaliação de Modelos Visão-Linguagem na Detecção de Ações Inseguras para Agentes Incorporados em Cenários Domésticos

Resumo

A rápida evolução de agentes corporificados acelerou a implantação de robôs domésticos em ambientes do mundo real. No entanto, ao contrário de ambientes industriais estruturados, os espaços domésticos introduzem riscos de segurança imprevisíveis, onde limitações do sistema, como latência de percepção e falta de conhecimento de senso comum, podem levar a erros perigosos. As avaliações de segurança atuais, frequentemente restritas a imagens estáticas, texto ou perigos genéricos, não conseguem avaliar adequadamente a detecção dinâmica de ações inseguras nesses contextos específicos. Para preencher essa lacuna, apresentamos o HomeSafe-Bench, um benchmark desafiador projetado para avaliar Modelos de Visão e Linguagem (VLMs) na detecção de ações inseguras em cenários domésticos. O HomeSafe-Bench é construído por meio de um pipeline híbrido que combina simulação física com geração avançada de vídeo e apresenta 438 casos diversos em seis áreas funcionais com anotações multidimensionais de granularidade fina. Além da avaliação comparativa, propomos o Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), uma arquitetura de streaming hierárquica para monitoramento de segurança em tempo real. O HD-Guard coordena um "Cérebro Rápido" leve para triagem contínua de alta frequência com um "Cérebro Lento" de grande escala assíncrono para raciocínio multimodal profundo, equilibrando eficazmente a eficiência de inferência com a precisão de detecção. As avaliações demonstram que o HD-Guard alcança um equilíbrio superior entre latência e desempenho, enquanto nossa análise identifica gargalos críticos na detecção de segurança atual baseada em VLMs.

English

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.