ChatPaper.aiChatPaper

Смотри, Указывай, Лети: Обучение-свободная VLM-структура для универсальной навигации беспилотных летательных аппаратов

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

September 26, 2025
Авторы: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
cs.AI

Аннотация

Мы представляем See, Point, Fly (SPF) — бесплатную для обучения систему навигации на основе визуальных и языковых данных (AVLN), построенную на основе моделей, объединяющих зрение и язык (VLMs). SPF способна перемещаться к любой цели на основе любых свободных инструкций в любом типе окружения. В отличие от существующих подходов на основе VLMs, которые рассматривают предсказание действий как задачу генерации текста, наше ключевое понимание заключается в том, чтобы рассматривать предсказание действий для AVLN как задачу пространственного закрепления в 2D. SPF использует VLMs для разложения расплывчатых языковых инструкций на итеративную аннотацию 2D точек маршрута на входном изображении. Вместе с предсказанным расстоянием перемещения SPF преобразует предсказанные 2D точки маршрута в 3D векторы смещения, которые служат командами действий для БПЛА. Кроме того, SPF также адаптивно корректирует расстояние перемещения для обеспечения более эффективной навигации. Важно отметить, что SPF выполняет навигацию в режиме замкнутого управления, что позволяет БПЛА следовать за динамическими целями в динамических средах. SPF устанавливает новый эталон в бенчмарке симуляции DRL, превосходя предыдущий лучший метод на абсолютные 63%. В обширных реальных испытаниях SPF значительно превосходит сильные базовые методы. Мы также проводим всесторонние исследования для подчеркивания эффективности наших проектных решений. Наконец, SPF демонстрирует замечательную обобщаемость для различных VLMs. Страница проекта: https://spf-web.pages.dev
English
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
PDF202September 29, 2025