ESARBench: エージェント型無人航空機による具身化探索救助のベンチマーク
ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue
May 2, 2026
著者: Daoxuan Zhang, Ping Chen, Jianyi Zhou, Shuo Yang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の急速な進歩により、無人航空機(UAV)は空間推論、意味理解、複雑な意思決定において卓越した能力を獲得し、UAVを用いた捜索救助(SAR)に本質的に適した存在となっている。しかし、既存のUAV SAR研究は従来の視覚技術や経路計画手法が主流であり、具身化エージェントのための包括的で統一されたベンチマークが不足している。このギャップを埋めるため、我々はまず新しいタスク「具身化捜索救助(ESAR)」を提案する。このタスクでは、空中エージェントが複雑な環境を自律的に探索し、救助の手がかりを特定し、被災者の位置を推論して情報に基づいた意思決定を実行する必要がある。さらに、極めて現実的なSARシナリオにおいてMLLM駆動のUAVエージェントを評価するために設計された、初の包括的ベンチマーク「ESARBench」を提示する。Unreal Engine 5とAirSimを活用し、現実世界の地理情報システム(GIS)データから直接マッピングされた4つの高精細で大規模なオープン環境を構築し、写実的な景観を保証した。実際の救助活動を厳密にシミュレートするため、本ベンチマークには気象条件、時間帯、手がかりの確率的配置を含む動的変数を組み込んでいる。さらに、実世界の救助事例に基づいてモデル化された600のタスクからなるデータセットを作成し、堅牢な評価指標群を提案する。我々は、従来のヒューリスティクスから先進的な地上及び空中のMLLMベースObjectNavエージェントまで、多様なベースラインを評価した。実験結果はESARの課題を浮き彫りにし、空間記憶、空中適応、探索効率と飛行安全のトレードオフにおける重大なボトルネックを明らかにしている。ESARBenchが具身化捜索救助分野の研究を推進する貴重なリソースとなることを期待する。ソースコードとプロジェクトページ: https://4amgodvzx.github.io/ESAR.github.io。
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of Embodied Search and Rescue (ESAR), which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present ESARBench, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.