HomeSafe-Bench: Het evalueren van vision-language-modellen op het detecteren van onveilige handelingen voor belichaamde agents in huishoudelijke scenario's

Samenvatting

De snelle evolutie van belichaamde agents heeft de inzet van huishoudelijke robots in real-world omgevingen versneld. In tegenstelling tot gestructureerde industriële settings brengen huishoudelijke ruimtes echter onvoorspelbare veiligheidsrisico's met zich mee, waarbij systeembeperkingen zoals perceptievertraging en een gebrek aan gezond verstand kunnen leiden tot gevaarlijke fouten. Huidige veiligheidsevaluaties, vaak beperkt tot statische beelden, tekst of algemene gevaren, slagen er niet in om de detectie van dynamische onveilige handelingen in deze specifieke contexten adequaat te benchmarken. Om deze kloof te overbruggen, introduceren we HomeSafe-Bench, een uitdagende benchmark ontworpen om Vision-Language Models (VLMs) te evalueren op het detecteren van onveilige handelingen in huishoudelijke scenario's. HomeSafe-Bench is geconstrueerd via een hybride pijplijn die fysieke simulatie combineert met geavanceerde videogeneratie en omvat 438 gevarieerde casussen binnen zes functionele gebieden met fijnmazige multidimensionale annotaties. Naast benchmarking stellen we Hierarchical Dual-Brain Guard for Household Safety (HD-Guard) voor, een hiërarchische streamingarchitectuur voor real-time veiligheidsmonitoring. HD-Guard coördineert een lichtgewicht FastBrain voor continue hoogfrequente screening met een asynchroon grootschalig SlowBrain voor diepe multimodale redenering, waardoor inferentie-efficiëntie en detectienauwkeurigheid effectief in balans worden gebracht. Evaluaties tonen aan dat HD-Guard een superieure balans bereikt tussen latentie en prestaties, terwijl onze analyse kritieke knelpunten identificeert in huidige VLM-gebaseerde veiligheidsdetectie.

English

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench: Het evalueren van vision-language-modellen op het detecteren van onveilige handelingen voor belichaamde agents in huishoudelijke scenario's

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Samenvatting

Support