Voir, Pointer, Voler : Un cadre VLM sans apprentissage pour la navigation universelle de drones
See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
September 26, 2025
papers.authors: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI
papers.abstract
Nous présentons See, Point, Fly (SPF), un cadre de navigation aérienne vision-langage (AVLN) sans apprentissage, construit sur des modèles vision-langage (VLMs). SPF est capable de naviguer vers n'importe quel objectif en se basant sur tout type d'instructions libres dans n'importe quel environnement. Contrairement aux approches existantes basées sur les VLMs qui traitent la prédiction d'actions comme une tâche de génération de texte, notre idée clé est de considérer la prédiction d'actions pour l'AVLN comme une tâche d'ancrage spatial en 2D. SPF exploite les VLMs pour décomposer des instructions langagières vagues en annotations itératives de points de passage 2D sur l'image d'entrée. Avec la distance de déplacement prédite, SPF transforme les points de passage 2D prédits en vecteurs de déplacement 3D comme commandes d'action pour les drones. De plus, SPF ajuste également de manière adaptative la distance de déplacement pour faciliter une navigation plus efficace. Notamment, SPF effectue la navigation en mode de contrôle en boucle fermée, permettant aux drones de suivre des cibles dynamiques dans des environnements dynamiques. SPF établit un nouvel état de l'art sur le benchmark de simulation DRL, surpassant la meilleure méthode précédente avec une marge absolue de 63 %. Dans des évaluations approfondies en conditions réelles, SPF surpasse largement les bases de référence solides. Nous menons également des études d'ablation complètes pour mettre en évidence l'efficacité de nos choix de conception. Enfin, SPF montre une généralisation remarquable à différents VLMs. Page du projet : https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language
navigation (AVLN) framework built atop vision-language models (VLMs). SPF is
capable of navigating to any goal based on any type of free-form instructions
in any kind of environment. In contrast to existing VLM-based approaches that
treat action prediction as a text generation task, our key insight is to
consider action prediction for AVLN as a 2D spatial grounding task. SPF
harnesses VLMs to decompose vague language instructions into iterative
annotation of 2D waypoints on the input image. Along with the predicted
traveling distance, SPF transforms predicted 2D waypoints into 3D displacement
vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the
traveling distance to facilitate more efficient navigation. Notably, SPF
performs navigation in a closed-loop control manner, enabling UAVs to follow
dynamic targets in dynamic environments. SPF sets a new state of the art in DRL
simulation benchmark, outperforming the previous best method by an absolute
margin of 63%. In extensive real-world evaluations, SPF outperforms strong
baselines by a large margin. We also conduct comprehensive ablation studies to
highlight the effectiveness of our design choice. Lastly, SPF shows remarkable
generalization to different VLMs. Project page: https://spf-web.pages.dev