HomeSafe-Bench: Evaluierung von Vision-Sprach-Modellen zur Erkennung unsicherer Handlungen für verkörperte Agenten in Haushaltsszenarien

Zusammenfassung

Die rasante Entwicklung verkörperter Agenten hat den Einsatz von Haushaltsrobotern in realen Umgebungen beschleunigt. Im Gegensatz zu strukturierten industriellen Umgebungen bergen Haushaltsräume jedoch unvorhersehbare Sicherheitsrisiken, bei denen Systembeschränkungen wie Wahrnehmungslatenz und mangelndes Alltagswissen zu gefährlichen Fehlern führen können. Bestehende Sicherheitsbewertungen, die oft auf statische Bilder, Text oder allgemeine Gefahren beschränkt sind, können die Erkennung dynamischer unsicherer Aktionen in diesen spezifischen Kontexten nicht angemessen bewerten. Um diese Lücke zu schließen, stellen wir HomeSafe-Bench vor, einen anspruchsvollen Benchmark zur Bewertung von Vision-Language-Modellen (VLMs) bei der Erkennung unsicherer Handlungen in Haushaltsszenarien. HomeSafe-Bench wird durch eine hybride Pipeline erstellt, die physikalische Simulation mit fortschrittlicher Videogenerierung kombiniert, und umfasst 438 verschiedene Fälle aus sechs Funktionsbereichen mit feingranularen multidimensionalen Annotationen. Über die reine Bewertung hinaus schlagen wir Hierarchical Dual-Brain Guard for Household Safety (HD-Guard) vor – eine hierarchische Streaming-Architektur für die Echtzeit-Sicherheitsüberwachung. HD-Guard koordiniert einen leichtgewichtigen FastBrain für kontinuierliche Hochfrequenzüberwachung mit einem asynchronen großskaligen SlowBrain für tiefgreifendes multimodales Reasoning und erreicht so eine effektive Balance zwischen Inferenzeffizienz und Erkennungsgenauigkeit. Evaluationen zeigen, dass HD-Guard eine überlegene Balance zwischen Latenz und Leistung erzielt, während unsere Analyse kritische Engpässe in der aktuellen VLM-basierten Sicherheitserkennung identifiziert.

English

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench: Evaluierung von Vision-Sprach-Modellen zur Erkennung unsicherer Handlungen für verkörperte Agenten in Haushaltsszenarien

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Zusammenfassung

Support