ChatPaper.aiChatPaper

Vedi, Puntare, Volare: Un Framework VLM Senza Apprendimento per la Navigazione Universale di Droni

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

September 26, 2025
Autori: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI

Abstract

Presentiamo See, Point, Fly (SPF), un framework per la navigazione aerea basata su visione e linguaggio (AVLN) che non richiede addestramento, costruito su modelli visione-linguaggio (VLMs). SPF è in grado di navigare verso qualsiasi obiettivo basandosi su istruzioni libere di qualsiasi tipo in qualsiasi ambiente. A differenza degli approcci esistenti basati su VLMs che trattano la previsione delle azioni come un compito di generazione di testo, la nostra intuizione chiave è considerare la previsione delle azioni per AVLN come un compito di grounding spaziale 2D. SPF sfrutta i VLMs per scomporre istruzioni linguistiche vaghe in annotazioni iterative di waypoint 2D sull'immagine di input. Insieme alla distanza di viaggio prevista, SPF trasforma i waypoint 2D previsti in vettori di spostamento 3D come comandi di azione per i droni. Inoltre, SPF regola in modo adattivo la distanza di viaggio per facilitare una navigazione più efficiente. È importante notare che SPF esegue la navigazione in modalità di controllo a ciclo chiuso, consentendo ai droni di seguire target dinamici in ambienti dinamici. SPF stabilisce un nuovo stato dell'arte nel benchmark di simulazione DRL, superando il precedente metodo migliore con un margine assoluto del 63%. In estese valutazioni nel mondo reale, SPF supera i forti baseline con un ampio margine. Abbiamo anche condotto studi di ablazione completi per evidenziare l'efficacia delle nostre scelte progettuali. Infine, SPF mostra una notevole generalizzazione a diversi VLMs. Pagina del progetto: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
PDF232September 29, 2025