Sehen, Zielen, Fliegen: Ein lernfreies VLM-Framework für universelle unbemannte Luftnavigation
See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
September 26, 2025
papers.authors: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI
papers.abstract
Wir präsentieren See, Point, Fly (SPF), ein trainingsfreies Framework für die visuelle und sprachliche Navigation in der Luft (AVLN), das auf Vision-Language-Modellen (VLMs) basiert. SPF ist in der Lage, basierend auf beliebigen freiformulierten Anweisungen in jeder Art von Umgebung zu einem Ziel zu navigieren. Im Gegensatz zu bestehenden VLM-basierten Ansätzen, die die Aktionsvorhersage als Textgenerierungsaufgabe behandeln, betrachten wir die Aktionsvorhersage für AVLN als eine 2D-räumliche Verankerungsaufgabe. SPF nutzt VLMs, um vage Sprachanweisungen in iterative Annotationen von 2D-Wegpunkten im Eingabebild zu zerlegen. Zusammen mit der vorhergesagten Reisedistanz transformiert SPF die vorhergesagten 2D-Wegpunkte in 3D-Verschiebungsvektoren als Aktionsbefehle für UAVs. Darüber hinaus passt SPF die Reisedistanz adaptiv an, um eine effizientere Navigation zu ermöglichen. Bemerkenswert ist, dass SPF die Navigation in einer geschlossenen Regelkreissteuerung durchführt, wodurch UAVs in der Lage sind, dynamische Ziele in dynamischen Umgebungen zu verfolgen. SPF setzt einen neuen Maßstab im DRL-Simulationsbenchmark und übertrifft die bisher beste Methode mit einem absoluten Vorsprung von 63 %. In umfangreichen realen Evaluierungen übertrifft SPF starke Baseline-Methoden deutlich. Wir führen auch umfassende Ablationsstudien durch, um die Wirksamkeit unserer Designentscheidungen hervorzuheben. Schließlich zeigt SPF eine bemerkenswerte Generalisierungsfähigkeit gegenüber verschiedenen VLMs. Projektseite: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language
navigation (AVLN) framework built atop vision-language models (VLMs). SPF is
capable of navigating to any goal based on any type of free-form instructions
in any kind of environment. In contrast to existing VLM-based approaches that
treat action prediction as a text generation task, our key insight is to
consider action prediction for AVLN as a 2D spatial grounding task. SPF
harnesses VLMs to decompose vague language instructions into iterative
annotation of 2D waypoints on the input image. Along with the predicted
traveling distance, SPF transforms predicted 2D waypoints into 3D displacement
vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the
traveling distance to facilitate more efficient navigation. Notably, SPF
performs navigation in a closed-loop control manner, enabling UAVs to follow
dynamic targets in dynamic environments. SPF sets a new state of the art in DRL
simulation benchmark, outperforming the previous best method by an absolute
margin of 63%. In extensive real-world evaluations, SPF outperforms strong
baselines by a large margin. We also conduct comprehensive ablation studies to
highlight the effectiveness of our design choice. Lastly, SPF shows remarkable
generalization to different VLMs. Project page: https://spf-web.pages.dev