CognitiveDrone: Een VLA-model en evaluatiebenchmark voor real-time cognitieve taakoplossing en redenering in UAV's
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs
March 3, 2025
Auteurs: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI
Samenvatting
Dit artikel introduceert CognitiveDrone, een innovatief Vision-Language-Action (VLA)-model dat is ontworpen voor complexe taken met Onbemande Luchtvaartuigen (UAV's) die geavanceerde cognitieve vaardigheden vereisen. Het model is getraind op een dataset met meer dan 8.000 gesimuleerde vluchttrajectorieën in drie belangrijke categorieën: Mensherkenning, Symboolbegrip en Redeneren. Het genereert real-time 4D-actiecommando's op basis van first-person visuele input en tekstuele instructies. Om de prestaties in complexe scenario's verder te verbeteren, stellen we CognitiveDrone-R1 voor, dat een extra Vision-Language Model (VLM)-redeneermodule integreert om taakinstructies te vereenvoudigen voordat hoogfrequente controle plaatsvindt. Experimentele evaluaties met behulp van onze open-source benchmark, CognitiveDroneBench, laten zien dat terwijl een op racen gericht model (RaceVLA) een algeheel slagingspercentage van 31,3% behaalt, het basis CognitiveDrone-model 59,6% bereikt en CognitiveDrone-R1 een slagingspercentage van 77,2% behaalt. Deze resultaten tonen verbeteringen van tot wel 30% in kritieke cognitieve taken, wat de effectiviteit onderstreept van het integreren van geavanceerde redeneervaardigheden in UAV-besturingssystemen. Onze bijdragen omvatten de ontwikkeling van een state-of-the-art VLA-model voor UAV-besturing en de introductie van de eerste toegewijde benchmark voor het beoordelen van cognitieve taken in drone-operaties. De volledige repository is beschikbaar op cognitivedrone.github.io.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA)
model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand
advanced cognitive abilities. Trained on a dataset comprising over 8,000
simulated flight trajectories across three key categories-Human Recognition,
Symbol Understanding, and Reasoning-the model generates real-time 4D action
commands based on first-person visual inputs and textual instructions. To
further enhance performance in intricate scenarios, we propose
CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM)
reasoning module to simplify task directives prior to high-frequency control.
Experimental evaluations using our open-source benchmark, CognitiveDroneBench,
reveal that while a racing-oriented model (RaceVLA) achieves an overall success
rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and
CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate
improvements of up to 30% in critical cognitive tasks, underscoring the
effectiveness of incorporating advanced reasoning capabilities into UAV control
systems. Our contributions include the development of a state-of-the-art VLA
model for UAV control and the introduction of the first dedicated benchmark for
assessing cognitive tasks in drone operations. The complete repository is
available at cognitivedrone.github.ioSummary
AI-Generated Summary