ChatPaper.aiChatPaper

Zie, Wijs, Vlieg: Een Leerloos VLM-Raamwerk voor Universele Onbemande Luchtvaartnavigatie

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

September 26, 2025
Auteurs: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI

Samenvatting

We presenteren See, Point, Fly (SPF), een trainingsvrij raamwerk voor visuele en taalkundige navigatie in de lucht (AVLN) gebouwd op visuele-taalmodelen (VLMs). SPF is in staat om naar elk doel te navigeren op basis van elk type vrije-vorm instructies in elke omgeving. In tegenstelling tot bestaande VLM-gebaseerde benaderingen die actievoorspelling behandelen als een tekstgeneratietaak, is onze belangrijkste inzicht dat actievoorspelling voor AVLN wordt beschouwd als een 2D ruimtelijke verankerings taak. SPF benut VLMs om vage taal instructies te ontleden in iteratieve annotatie van 2D wegpunten op het invoerbeeld. Samen met de voorspelde reisafstand, transformeert SPF voorspelde 2D wegpunten in 3D verplaatsingsvectoren als actiecommando's voor UAV's. Bovendien past SPF de reisafstand adaptief aan om efficiëntere navigatie te bevorderen. Opmerkelijk is dat SPF navigeert in een geslotenlus controlemanier, waardoor UAV's dynamische doelen kunnen volgen in dynamische omgevingen. SPF stelt een nieuwe standaard in de DRL simulatie benchmark, en overtreft de vorige beste methode met een absoluut verschil van 63%. In uitgebreide evaluaties in de echte wereld, overtreft SPF sterke baseline methoden met een grote marge. We voeren ook uitgebreide ablatiestudies uit om de effectiviteit van onze ontwerpkeuze te benadrukken. Tot slot toont SPF opmerkelijke generalisatie naar verschillende VLMs. Projectpagina: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
PDF232September 29, 2025