ESARBench: Een Benchmark voor Agent-gebaseerde Belichaamde Zoek- en Reddingsoperaties met UAV's

Samenvatting

De snelle vooruitgang van Multimodal Large Language Models (MLLM's) heeft Unmanned Aerial Vehicles (UAV's, drones) uitgerust met uitzonderlijke capaciteiten voor ruimtelijk redeneren, semantisch begrip en complexe besluitvorming, waardoor ze bij uitstek geschikt zijn voor Search and Rescue (SAR)-operaties. Echter wordt bestaand UAV-SAR-onderzoek gedomineerd door traditionele visie- en padplanningsmethoden en ontbreekt een uitgebreide en uniforme benchmark voor embodied agents. Om deze kloof te overbruggen, stellen we allereerst de nieuwe taak van Embodied Search and Rescue (ESAR) voor, waarbij luchtagentschappen autonoom complexe omgevingen moeten verkennen, reddingsaanwijzingen moeten identificeren en de locaties van slachtoffers moeten afleiden om gefundeerde beslissingen te nemen. Daarnaast presenteren we ESARBench, de eerste uitgebreide benchmark die is ontworpen om MLLM-gestuurde UAV-agents te evalueren in zeer realistische SAR-scenario's. Met behulp van Unreal Engine 5 en AirSim construeren we vier hoogwaardige, grootschalige open omgevingen die direct zijn gemodelleerd op basis van real-world Geographic Information System (GIS)-data om fotorealistische landschappen te garanderen. Om daadwerkelijke reddingsoperaties rigoureus te simuleren, integreert onze benchmark dynamische variabelen zoals weersomstandigheden, tijdstip van de dag en stochastische plaatsing van aanwijzingen. Verder creëren we een dataset van 600 taken, gemodelleerd naar echte reddingscasussen, en stellen we een robuuste set evaluatiemetrices voor. We evalueren diverse baselines, variërend van traditionele heuristieken tot geavanceerde op MLLM gebaseerde ObjectNav-agents voor grond en lucht. Experimentele resultaten benadrukken de uitdagingen binnen ESAR en onthullen kritieke knelpunten in ruimtelijk geheugen, aeriale aanpassing en de afweging tussen zoekefficiëntie en vluchtveiligheid. We hopen dat ESARBench zal dienen als een waardevolle bron om onderzoek in het domein van Embodied Search and Rescue vooruit te helpen. Broncode en projectpagina: https://4amgodvzx.github.io/ESAR.github.io.

English

The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of Embodied Search and Rescue (ESAR), which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present ESARBench, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.

ESARBench: Een Benchmark voor Agent-gebaseerde Belichaamde Zoek- en Reddingsoperaties met UAV's

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

Samenvatting

Support