HomeSafe-Bench: Evaluación de Modelos de Visión y Lenguaje en la Detección de Acciones Peligrosas para Agentes Corporizados en Escenarios Domésticos

Resumen

La rápida evolución de los agentes corporizados ha acelerado el despliegue de robots domésticos en entornos del mundo real. Sin embargo, a diferencia de los entornos industriales estructurados, los espacios domésticos introducen riesgos de seguridad impredecibles, donde limitaciones del sistema como la latencia perceptiva y la falta de conocimiento de sentido común pueden conducir a errores peligrosos. Las evaluaciones de seguridad actuales, a menudo restringidas a imágenes estáticas, texto o peligros generales, no logran evaluar adecuadamente la detección dinámica de acciones inseguras en estos contextos específicos. Para cerrar esta brecha, presentamos HomeSafe-Bench, un punto de referencia desafiante diseñado para evaluar Modelos de Lenguaje-Visión (VLMs) en la detección de acciones inseguras en escenarios domésticos. HomeSafe-Bench está construido mediante un pipeline híbrido que combina simulación física con generación avanzada de vídeo y presenta 438 casos diversos en seis áreas funcionales con anotaciones multidimensionales de grano fino. Más allá de la evaluación comparativa, proponemos HD-Guard (Hierarchical Dual-Brain Guard for Household Safety), una arquitectura de streaming jerárquica para el monitoreo de seguridad en tiempo real. HD-Guard coordina un "Cerebro Rápido" (FastBrain) ligero para un cribado continuo de alta frecuencia con un "Cerebro Lento" (SlowBrain) de gran escala asíncrono para el razonamiento multimodal profundo, equilibrando eficazmente la eficiencia de inferencia con la precisión de detección. Las evaluaciones demuestran que HD-Guard logra una relación superior entre latencia y rendimiento, mientras que nuestro análisis identifica cuellos de botella críticos en la detección de seguridad actual basada en VLMs.

English

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench: Evaluación de Modelos de Visión y Lenguaje en la Detección de Acciones Peligrosas para Agentes Corporizados en Escenarios Domésticos

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Resumen

Support