ChatPaper.aiChatPaper

ESARBench: Бенчмарк для агентного воплощенного поиска и спасения с помощью БПЛА

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

May 2, 2026
Авторы: Daoxuan Zhang, Ping Chen, Jianyi Zhou, Shuo Yang
cs.AI

Аннотация

Быстрое развитие мультимодальных больших языковых моделей (MLLM) наделило беспилотные летательные аппараты (БПЛА) исключительными возможностями в области пространственного мышления, семантического понимания и принятия сложных решений, что делает их идеально подходящими для поисково-спасательных операций (ПСО). Однако существующие исследования в области ПСО с использованием БПЛА доминируют традиционными методами компьютерного зрения и планирования маршрута и не имеют всестороннего и унифицированного бенчмарка для воплощенных агентов. Чтобы заполнить этот пробел, мы впервые предлагаем новую задачу Воплощенного поиска и спасения (ESAR), которая требует от воздушных агентов автономного исследования сложных сред, идентификации спасательных зацепок и определения местоположения пострадавших для принятия обоснованных решений. Кроме того, мы представляем ESARBench — первый комплексный бенчмарк, разработанный для оценки агентов на базе БПЛА, управляемых MLLM, в условиях высокореалистичных сценариев ПСО. Используя Unreal Engine 5 и AirSim, мы создали четыре высокодетализированных, крупномасштабных открытых окружения, напрямую отображаемых из данных реальных географических информационных систем (ГИС), чтобы обеспечить фотореалистичные ландшафты. Для строгого моделирования реальных спасательных операций наш бенчмарк включает динамические переменные, такие как погодные условия, время суток и стохастическое размещение зацепок. Кроме того, мы создали набор данных из 600 задач, смоделированных на основе реальных случаев спасения, и предложили надежный набор метрик оценки. Мы оценили различные базовые методы, от традиционных эвристик до продвинутых наземных и воздушных ObjectNav-агентов на основе MLLM. Результаты экспериментов подчеркивают сложности задачи ESAR, выявляя критические узкие места в пространственной памяти, адаптации к полету и компромиссе между эффективностью поиска и безопасностью полетов. Мы надеемся, что ESARBench послужит ценным ресурсом для продвижения исследований в области воплощенного поиска и спасения. Исходный код и страница проекта: https://4amgodvzx.github.io/ESAR.github.io.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of Embodied Search and Rescue (ESAR), which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present ESARBench, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.
PDF12May 7, 2026