HomeSafe-Bench : Évaluation des modèles vision-langage sur la détection d'actions dangereuses pour les agents incarnés dans des scénarios domestiques

Résumé

L'évolution rapide des agents incarnés a accéléré le déploiement de robots domestiques dans des environnements réels. Cependant, contrairement aux environnements industriels structurés, les espaces domestiques introduisent des risques de sécurité imprévisibles, où les limitations du système telles que la latence de perception et le manque de connaissances de sens commun peuvent entraîner des erreurs dangereuses. Les évaluations de sécurité actuelles, souvent limitées à des images statiques, du texte ou des dangers généraux, ne permettent pas d'évaluer de manière adéquate la détection dynamique d'actions non sécurisées dans ces contextes spécifiques. Pour combler cette lacune, nous présentons HomeSafe-Bench, un benchmark exigeant conçu pour évaluer les modèles vision-langage (VLM) sur la détection d'actions non sécurisées dans des scénarios domestiques. HomeSafe-Bench est construit via un pipeline hybride combinant la simulation physique avec une génération vidéo avancée et comprend 438 cas diversifiés couvrant six domaines fonctionnels, assortis d'annotations multidimensionnelles granulaires. Au-delà du benchmarking, nous proposons Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), une architecture flux hiérarchique pour la surveillance de sécurité en temps réel. HD-Guard coordonne un Cerveau Rapide léger pour un criblage continu à haute fréquence avec un Cerveau Lent asynchrone à grande échelle pour un raisonnement multimodal profond, équilibrant efficacement l'efficacité de l'inférence avec la précision de détection. Les évaluations démontrent qu'HD-Guard atteint un compromis supérieur entre la latence et les performances, tandis que notre analyse identifie les goulots d'étranglement critiques dans la détection de sécurité actuelle basée sur les VLM.

English

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench : Évaluation des modèles vision-langage sur la détection d'actions dangereuses pour les agents incarnés dans des scénarios domestiques

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Résumé

Support