ChatPaper.aiChatPaper

見て、指し示し、飛ぶ:学習不要のVLMフレームワークによる汎用無人航空ナビゲーション

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

September 26, 2025
著者: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI

要旨

本論文では、視覚言語モデル(VLM)を基盤とした訓練不要の航空視覚言語ナビゲーション(AVLN)フレームワーク「See, Point, Fly(SPF)」を提案する。SPFは、あらゆる種類の自由形式の指示に基づいて、あらゆる環境で目標地点へのナビゲーションを実現する。既存のVLMベースのアプローチが行動予測をテキスト生成タスクとして扱うのに対し、我々の重要な洞察は、AVLNのための行動予測を2D空間的グラウンディングタスクとみなすことである。SPFはVLMを活用して曖昧な言語指示を入力画像上の反復的な2Dウェイポイント注釈に分解する。予測された移動距離とともに、SPFは予測された2DウェイポイントをUAVのための3D変位ベクトルとしての行動コマンドに変換する。さらに、SPFは移動距離を適応的に調整し、より効率的なナビゲーションを促進する。特に、SPFは閉ループ制御方式でナビゲーションを実行し、UAVが動的環境で動的目標を追従することを可能にする。SPFはDRLシミュレーションベンチマークにおいて新たな最先端を達成し、従来の最良の手法を63%の絶対差で上回った。広範な実世界評価においても、SPFは強力なベースラインを大きく上回る性能を示した。また、設計選択の有効性を強調するための包括的アブレーション研究も実施した。最後に、SPFは異なるVLMに対する顕著な汎化性能を示す。プロジェクトページ: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
PDF202September 29, 2025