ESARBench: Un Punto de Referencia para la Búsqueda y Rescate Embebida con UAVs Agenticos
ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue
May 2, 2026
Autores: Daoxuan Zhang, Ping Chen, Jianyi Zhou, Shuo Yang
cs.AI
Resumen
El rápido avance de los Modelos de Lenguaje Grandes Multimodales (MLLMs) ha dotado a los Vehículos Aéreos No Tripulados (VANTs) de capacidades excepcionales en razonamiento espacial, comprensión semántica y toma de decisiones complejas, lo que los hace inherentemente adecuados para la Búsqueda y Rescate (SAR) con VANTs. Sin embargo, la investigación actual en SAR con VANTs está dominada por métodos tradicionales de visión y planificación de rutas, y carece de un benchmark integral y unificado para agentes corporizados. Para cerrar esta brecha, primero proponemos la novedosa tarea de Búsqueda y Rescate Corporizada (ESAR), que requiere que agentes aéreos exploren autónomamente entornos complejos, identifiquen pistas de rescate y razonen sobre la ubicación de las víctimas para ejecutar una toma de decisiones informada. Adicionalmente, presentamos ESARBench, el primer benchmark integral diseñado para evaluar agentes VANTs impulsados por MLLMs en escenarios SAR altamente realistas. Utilizando Unreal Engine 5 y AirSim, construimos cuatro entornos abiertos de gran escala y alta fidelidad, mapeados directamente a partir de datos del Sistema de Información Geográfica (SIG) del mundo real para garantizar paisajes fotorrealistas. Para simular rigurosamente operaciones de rescate reales, nuestro benchmark incorpora variables dinámicas que incluyen condiciones meteorológicas, hora del día y colocación estocástica de pistas. Además, creamos un conjunto de datos de 600 tareas modeladas a partir de casos de rescate reales y proponemos un sólido conjunto de métricas de evaluación. Evaluamos diversas líneas base, que van desde heurísticas tradicionales hasta avanzados agentes de Navegación por Objetos (ObjectNav) basados en MLLMs terrestres y aéreos. Los resultados experimentales destacan los desafíos en ESAR, revelando cuellos de botella críticos en memoria espacial, adaptación aérea y la compensación entre eficiencia de búsqueda y seguridad de vuelo. Esperamos que ESARBench sirva como un recurso valioso para avanzar en la investigación del dominio de Búsqueda y Rescate Corporizada. Código fuente y página del proyecto: https://4amgodvzx.github.io/ESAR.github.io.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of Embodied Search and Rescue (ESAR), which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present ESARBench, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.