ESARBench : Un benchmark pour la recherche et le sauvetage incarnés par des drones agents

Résumé

Les progrès rapides des modèles linguistiques multimodaux de grande taille (MLLM) ont doté les véhicules aériens sans pilote (UAV) de capacités exceptionnelles en raisonnement spatial, compréhension sémantique et prise de décision complexe, les rendant intrinsèquement adaptés aux opérations de recherche et sauvetage (SAR). Cependant, la recherche actuelle sur les UAV-SAR est dominée par les méthodes traditionnelles de vision et de planification de trajectoire, et manque d'un benchmark complet et unifié pour les agents incarnés. Pour combler cette lacune, nous proposons d'abord la nouvelle tâche de Recherche et Sautetage Incarnée (ESAR), qui exige que les agents aériens explorent autonome-ment des environnements complexes, identifient des indices de sauvetage et raisonnent sur les localisations des victimes pour prendre des décisions éclairées. De plus, nous présentons ESARBench, le premier benchmark complet conçu pour évaluer les agents UAV pilotés par des MLLM dans des scénarios SAR hautement réalistes. En utilisant Unreal Engine 5 et AirSim, nous construisons quatre environnements ouverts à grande échelle et haute fidélité, cartographiés directement à partir de données SIG réelles pour garantir des paysages photoréalistes. Pour simuler rigoureusement les opérations de sauvetage réelles, notre benchmark intègre des variables dynamiques incluant les conditions météorologiques, l'heure de la journée et le placement stochastique des indices. Par ailleurs, nous créons un jeu de données de 600 tâches modélisées sur des cas de sauvetage réels et proposons un ensemble robuste de métriques d'évaluation. Nous évaluons diverses approches de référence, allant des heuristiques traditionnelles aux agents ObjectNav avancés basés sur des MLLM terrestres et aériens. Les résultats expérimentaux soulignent les défis de l'ESAR, révélant des goulots d'étranglement critiques dans la mémoire spatiale, l'adaptation aérienne et le compromis entre l'efficacité de la recherche et la sécurité du vol. Nous espérons qu'ESARBench servira de ressource précieuse pour faire progresser la recherche dans le domaine de la Recherche et Sautetage Incarnée. Code source et page du projet : https://4amgodvzx.github.io/ESAR.github.io.

English

The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of Embodied Search and Rescue (ESAR), which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present ESARBench, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.

ESARBench : Un benchmark pour la recherche et le sauvetage incarnés par des drones agents

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

Résumé

Support