ChatPaper.aiChatPaper

Veja, Aponte, Voe: Um Framework VLM Sem Aprendizado para Navegação Aérea Universal com Drones

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

September 26, 2025
Autores: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI

Resumo

Apresentamos o See, Point, Fly (SPF), uma estrutura de navegação aérea visão-e-linguagem (AVLN) sem necessidade de treinamento, construída sobre modelos visão-linguagem (VLMs). O SPF é capaz de navegar até qualquer objetivo com base em qualquer tipo de instrução de forma livre em qualquer tipo de ambiente. Em contraste com as abordagens existentes baseadas em VLMs que tratam a previsão de ações como uma tarefa de geração de texto, nossa principal percepção é considerar a previsão de ações para AVLN como uma tarefa de ancoragem espacial 2D. O SPF utiliza VLMs para decompor instruções linguísticas vagas em anotações iterativas de waypoints 2D na imagem de entrada. Juntamente com a distância de viagem prevista, o SPF transforma os waypoints 2D previstos em vetores de deslocamento 3D como comandos de ação para UAVs. Além disso, o SPF também ajusta adaptativamente a distância de viagem para facilitar uma navegação mais eficiente. Notavelmente, o SPF realiza a navegação de forma de controle em malha fechada, permitindo que UAVs sigam alvos dinâmicos em ambientes dinâmicos. O SPF estabelece um novo estado da arte no benchmark de simulação DRL, superando o melhor método anterior por uma margem absoluta de 63%. Em extensas avaliações no mundo real, o SPF supera fortes baselines por uma grande margem. Também realizamos estudos abrangentes de ablação para destacar a eficácia de nossas escolhas de design. Por fim, o SPF mostra uma generalização notável para diferentes VLMs. Página do projeto: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
PDF232September 29, 2025