CognitiveDrone : Un modèle VLA et un banc d'évaluation pour la résolution et le raisonnement de tâches cognitives en temps réel dans les drones
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs
March 3, 2025
Auteurs: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI
Résumé
Cet article présente CognitiveDrone, un nouveau modèle Vision-Langage-Action (VLA) conçu pour des tâches complexes de drones aériens sans pilote (UAV) nécessitant des capacités cognitives avancées. Entraîné sur un ensemble de données comprenant plus de 8 000 trajectoires de vol simulées réparties en trois catégories principales — Reconnaissance Humaine, Compréhension de Symboles et Raisonnement — le modèle génère des commandes d'action 4D en temps réel à partir d'entrées visuelles à la première personne et d'instructions textuelles. Pour améliorer encore les performances dans des scénarios complexes, nous proposons CognitiveDrone-R1, qui intègre un module de raisonnement supplémentaire basé sur un modèle Vision-Langage (VLM) afin de simplifier les directives de tâches avant le contrôle haute fréquence. Les évaluations expérimentales utilisant notre benchmark open-source, CognitiveDroneBench, révèlent que tandis qu'un modèle axé sur la course (RaceVLA) atteint un taux de réussite global de 31,3 %, le modèle de base CognitiveDrone atteint 59,6 %, et CognitiveDrone-R1 obtient un taux de réussite de 77,2 %. Ces résultats montrent des améliorations allant jusqu'à 30 % dans des tâches cognitives critiques, soulignant l'efficacité de l'intégration de capacités de raisonnement avancées dans les systèmes de contrôle des UAV. Nos contributions incluent le développement d'un modèle VLA de pointe pour le contrôle des UAV et l'introduction du premier benchmark dédié à l'évaluation des tâches cognitives dans les opérations de drones. Le dépôt complet est disponible sur cognitivedrone.github.io.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA)
model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand
advanced cognitive abilities. Trained on a dataset comprising over 8,000
simulated flight trajectories across three key categories-Human Recognition,
Symbol Understanding, and Reasoning-the model generates real-time 4D action
commands based on first-person visual inputs and textual instructions. To
further enhance performance in intricate scenarios, we propose
CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM)
reasoning module to simplify task directives prior to high-frequency control.
Experimental evaluations using our open-source benchmark, CognitiveDroneBench,
reveal that while a racing-oriented model (RaceVLA) achieves an overall success
rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and
CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate
improvements of up to 30% in critical cognitive tasks, underscoring the
effectiveness of incorporating advanced reasoning capabilities into UAV control
systems. Our contributions include the development of a state-of-the-art VLA
model for UAV control and the introduction of the first dedicated benchmark for
assessing cognitive tasks in drone operations. The complete repository is
available at cognitivedrone.github.ioSummary
AI-Generated Summary