ChatPaper.aiChatPaper

Ver, Apuntar, Volar: Un Marco de VLM sin Aprendizaje para la Navegación Aérea Universal no Tripulada

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

September 26, 2025
Autores: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI

Resumen

Presentamos See, Point, Fly (SPF), un marco de navegación aérea visión-lenguaje (AVLN) sin entrenamiento, construido sobre modelos visión-lenguaje (VLMs). SPF es capaz de navegar hacia cualquier objetivo basado en instrucciones de forma libre en cualquier tipo de entorno. A diferencia de los enfoques existentes basados en VLMs que tratan la predicción de acciones como una tarea de generación de texto, nuestra idea clave es considerar la predicción de acciones para AVLN como una tarea de anclaje espacial en 2D. SPF aprovecha los VLMs para descomponer instrucciones lingüísticas vagas en anotaciones iterativas de puntos de referencia en 2D sobre la imagen de entrada. Junto con la distancia de viaje predicha, SPF transforma los puntos de referencia 2D predichos en vectores de desplazamiento 3D como comandos de acción para UAVs. Además, SPF ajusta adaptativamente la distancia de viaje para facilitar una navegación más eficiente. Cabe destacar que SPF realiza la navegación en un modo de control de bucle cerrado, permitiendo que los UAVs sigan objetivos dinámicos en entornos dinámicos. SPF establece un nuevo estado del arte en el punto de referencia de simulación DRL, superando al mejor método anterior por un margen absoluto del 63%. En evaluaciones extensas del mundo real, SPF supera a las líneas de base fuertes por un amplio margen. También realizamos estudios de ablación exhaustivos para resaltar la efectividad de nuestras decisiones de diseño. Por último, SPF muestra una generalización notable a diferentes VLMs. Página del proyecto: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
PDF202September 29, 2025