ESARBench: Ein Benchmark für agentenbasierte verkörperte Suche und Rettung mit UAVs

Zusammenfassung

Die rasante Entwicklung multimodaler großer Sprachmodelle (MLLMs) hat unbemannten Luftfahrzeugen (UAVs) außergewöhnliche Fähigkeiten in den Bereichen räumliches Schließen, semantisches Verständnis und komplexe Entscheidungsfindung verliehen, was sie prädestiniert für die Such- und Rettungseinsätze (SAR) mit UAVs macht. Bisher wird die Forschung zu UAV-SAR jedoch von traditionellen Bildverarbeitungs- und Wegplanungsmethoden dominiert und es fehlt an einem umfassenden und einheitlichen Benchmark für verkörperte Agenten. Um diese Lücke zu schließen, schlagen wir zunächst die neuartige Aufgabe der "Embodied Search and Rescue" (ESAR) vor, die von Luftagenten verlangt, komplexe Umgebungen autonom zu erkunden, Rettungshinweise zu identifizieren und den Aufenthaltsort von Opfern zu erschließen, um fundierte Entscheidungen zu treffen. Zusätzlich stellen wir ESARBench vor, den ersten umfassenden Benchmark, der entwickelt wurde, um MLLM-gesteuerte UAV-Agenten in hochrealistischen SAR-Szenarien zu evaluieren. Unter Nutzung von Unreal Engine 5 und AirSim konstruieren wir vier hochdetaillierte, großflächige offene Umgebungen, die direkt aus realen Geoinformationssystem (GIS)-Daten abgebildet sind, um fotorealistische Landschaften zu gewährleisten. Um reale Rettungseinsätze rigoros zu simulieren, integriert unser Benchmark dynamische Variablen, einschließlich Wetterbedingungen, Tageszeit und stochastischer Platzierung von Hinweisen. Darüber hinaus erstellen wir einen Datensatz mit 600 Aufgaben, die nach realen Rettungsfällen modelliert sind, und schlagen einen robusten Satz von Evaluierungsmetriken vor. Wir evaluieren diverse Baseline-Methoden, die von traditionellen Heuristiken bis hin zu fortschrittlichen, boden- und luftgestützten MLLM-basierten ObjectNav-Agenten reichen. Die experimentellen Ergebnisse unterstreichen die Herausforderungen von ESAR und zeigen kritische Engpässe im räumlichen Gedächtnis, bei der luftgestützten Adaptation sowie den Zielkonflikt zwischen SuchEffizienz und Flugsicherheit auf. Wir hoffen, dass ESARBench als wertvolle Ressource dienen wird, um die Forschung im Bereich der verkörperten Such- und Rettungseinsätze voranzutreiben. Quellcode und Projektseite: https://4amgodvzx.github.io/ESAR.github.io.

English

The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of Embodied Search and Rescue (ESAR), which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present ESARBench, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.

ESARBench: Ein Benchmark für agentenbasierte verkörperte Suche und Rettung mit UAVs

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

Zusammenfassung

Support