HomeSafe-Bench: Valutazione dei Modelli Visione-Linguaggio sul Rilevamento di Azioni Non Sicure per Agenti Embodied in Scenari Domestici

Abstract

La rapida evoluzione degli agenti embodied ha accelerato il dispiegamento di robot domestici in ambienti reali. Tuttavia, a differenza degli ambienti industriali strutturati, gli spazi domestici introducono rischi per la sicurezza imprevedibili, dove limitazioni del sistema come la latenza percettiva e la mancanza di conoscenza del senso comune possono portare a errori pericolosi. Le attuali valutazioni di sicurezza, spesso limitate a immagini statiche, testo o pericoli generici, non riescono a fornare adeguati benchmark per il rilevamento dinamico di azioni non sicure in questi contesti specifici. Per colmare questa lacuna, introduciamo HomeSafe-Bench, un benchmark impegnativo progettato per valutare i Modelli Visione-Linguaggio (VLM) sul rilevamento di azioni non sicure in scenari domestici. HomeSafe-Bench è costruito tramite una pipeline ibrida che combina simulazione fisica con avanzata generazione video e presenta 438 casi diversificati in sei aree funzionali con annotazioni multidimensionali granulari. Oltre al benchmarking, proponiamo HD-Guard (Hierarchical Dual-Brain Guard for Household Safety), un'architettura streaming gerarchica per il monitoraggio della sicurezza in tempo reale. HD-Guard coordina un "Cervello Veloce" (FastBrain) leggero per lo screening continuo ad alta frequenza con un "Cervello Lento" (SlowBrain) asincrono su larga scala per il ragionamento multimodale profondo, bilanciando efficacemente l'efficienza inferenziale con l'accuratezza di rilevamento. Le valutazioni dimostrano che HD-Guard raggiunge un compromesso superiore tra latenza e prestazioni, mentre la nostra analisi identifica colli di bottiglia critici nell'attuale rilevamento della sicurezza basato su VLM.

English

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench: Valutazione dei Modelli Visione-Linguaggio sul Rilevamento di Azioni Non Sicure per Agenti Embodied in Scenari Domestici

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Abstract

Support