見て、指し示し、飛ぶ:学習不要のVLMフレームワークによる汎用無人航空ナビゲーション
See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
September 26, 2025
著者: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI
要旨
本論文では、視覚言語モデル(VLM)を基盤とした訓練不要の航空視覚言語ナビゲーション(AVLN)フレームワーク「See, Point, Fly(SPF)」を提案する。SPFは、あらゆる種類の自由形式の指示に基づいて、あらゆる環境で目標地点へのナビゲーションを実現する。既存のVLMベースのアプローチが行動予測をテキスト生成タスクとして扱うのに対し、我々の重要な洞察は、AVLNのための行動予測を2D空間的グラウンディングタスクとみなすことである。SPFはVLMを活用して曖昧な言語指示を入力画像上の反復的な2Dウェイポイント注釈に分解する。予測された移動距離とともに、SPFは予測された2DウェイポイントをUAVのための3D変位ベクトルとしての行動コマンドに変換する。さらに、SPFは移動距離を適応的に調整し、より効率的なナビゲーションを促進する。特に、SPFは閉ループ制御方式でナビゲーションを実行し、UAVが動的環境で動的目標を追従することを可能にする。SPFはDRLシミュレーションベンチマークにおいて新たな最先端を達成し、従来の最良の手法を63%の絶対差で上回った。広範な実世界評価においても、SPFは強力なベースラインを大きく上回る性能を示した。また、設計選択の有効性を強調するための包括的アブレーション研究も実施した。最後に、SPFは異なるVLMに対する顕著な汎化性能を示す。プロジェクトページ: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language
navigation (AVLN) framework built atop vision-language models (VLMs). SPF is
capable of navigating to any goal based on any type of free-form instructions
in any kind of environment. In contrast to existing VLM-based approaches that
treat action prediction as a text generation task, our key insight is to
consider action prediction for AVLN as a 2D spatial grounding task. SPF
harnesses VLMs to decompose vague language instructions into iterative
annotation of 2D waypoints on the input image. Along with the predicted
traveling distance, SPF transforms predicted 2D waypoints into 3D displacement
vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the
traveling distance to facilitate more efficient navigation. Notably, SPF
performs navigation in a closed-loop control manner, enabling UAVs to follow
dynamic targets in dynamic environments. SPF sets a new state of the art in DRL
simulation benchmark, outperforming the previous best method by an absolute
margin of 63%. In extensive real-world evaluations, SPF outperforms strong
baselines by a large margin. We also conduct comprehensive ablation studies to
highlight the effectiveness of our design choice. Lastly, SPF shows remarkable
generalization to different VLMs. Project page: https://spf-web.pages.dev