CognitiveDrone: Um Modelo VLA e Benchmark de Avaliação para Resolução e Raciocínio de Tarefas Cognitivas em Tempo Real em UAVs
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs
March 3, 2025
Autores: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI
Resumo
Este artigo apresenta o CognitiveDrone, um modelo inovador de Visão-Linguagem-Ação (VLA) projetado para tarefas complexas de Veículos Aéreos Não Tripulados (VANTs) que exigem habilidades cognitivas avançadas. Treinado em um conjunto de dados composto por mais de 8.000 trajetórias de voo simuladas em três categorias principais - Reconhecimento Humano, Compreensão de Símbolos e Raciocínio - o modelo gera comandos de ação 4D em tempo real com base em entradas visuais em primeira pessoa e instruções textuais. Para aprimorar ainda mais o desempenho em cenários complexos, propomos o CognitiveDrone-R1, que integra um módulo adicional de raciocínio de Modelo de Visão-Linguagem (VLM) para simplificar as diretrizes das tarefas antes do controle de alta frequência. Avaliações experimentais utilizando nosso benchmark de código aberto, CognitiveDroneBench, revelam que, enquanto um modelo voltado para corridas (RaceVLA) alcança uma taxa de sucesso geral de 31,3%, o modelo base CognitiveDrone atinge 59,6%, e o CognitiveDrone-R1 alcança uma taxa de sucesso de 77,2%. Esses resultados demonstram melhorias de até 30% em tarefas cognitivas críticas, destacando a eficácia da incorporação de capacidades avançadas de raciocínio em sistemas de controle de VANTs. Nossas contribuições incluem o desenvolvimento de um modelo VLA de ponta para controle de VANTs e a introdução do primeiro benchmark dedicado à avaliação de tarefas cognitivas em operações de drones. O repositório completo está disponível em cognitivedrone.github.io.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA)
model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand
advanced cognitive abilities. Trained on a dataset comprising over 8,000
simulated flight trajectories across three key categories-Human Recognition,
Symbol Understanding, and Reasoning-the model generates real-time 4D action
commands based on first-person visual inputs and textual instructions. To
further enhance performance in intricate scenarios, we propose
CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM)
reasoning module to simplify task directives prior to high-frequency control.
Experimental evaluations using our open-source benchmark, CognitiveDroneBench,
reveal that while a racing-oriented model (RaceVLA) achieves an overall success
rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and
CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate
improvements of up to 30% in critical cognitive tasks, underscoring the
effectiveness of incorporating advanced reasoning capabilities into UAV control
systems. Our contributions include the development of a state-of-the-art VLA
model for UAV control and the introduction of the first dedicated benchmark for
assessing cognitive tasks in drone operations. The complete repository is
available at cognitivedrone.github.ioSummary
AI-Generated Summary