CognitiveDrone: Ein VLA-Modell und Evaluierungsbenchmark für Echtzeit-Kognitionsaufgabenlösung und -schlussfolgerung in UAVs
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs
March 3, 2025
Autoren: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI
Zusammenfassung
Dieses Paper stellt CognitiveDrone vor, ein neuartiges Vision-Language-Action (VLA)-Modell, das für komplexe Aufgaben von unbemannten Luftfahrzeugen (UAVs) entwickelt wurde, die fortgeschrittene kognitive Fähigkeiten erfordern. Das Modell wurde auf einem Datensatz trainiert, der über 8.000 simulierte Flugtrajektorien in drei Schlüsselkategorien umfasst – Menschliche Erkennung, Symbolverständnis und logisches Denken – und generiert Echtzeit-4D-Aktionsbefehle basierend auf First-Person-Visualinputs und textuellen Anweisungen. Um die Leistung in komplexen Szenarien weiter zu verbessern, schlagen wir CognitiveDrone-R1 vor, das ein zusätzliches Vision-Language-Model (VLM)-Reasoning-Modul integriert, um Aufgabenanweisungen vor der Hochfrequenzsteuerung zu vereinfachen. Experimentelle Auswertungen mit unserem Open-Source-Benchmark, CognitiveDroneBench, zeigen, dass ein auf Rennen ausgerichtetes Modell (RaceVLA) eine Gesamterfolgsrate von 31,3 % erreicht, während das Basismodell CognitiveDrone 59,6 % und CognitiveDrone-R1 eine Erfolgsrate von 77,2 % erzielt. Diese Ergebnisse demonstrieren Verbesserungen von bis zu 30 % bei kritischen kognitiven Aufgaben und unterstreichen die Effektivität der Integration fortgeschrittener Denkfähigkeiten in UAV-Steuerungssysteme. Unsere Beiträge umfassen die Entwicklung eines state-of-the-art VLA-Modells für die UAV-Steuerung und die Einführung des ersten dedizierten Benchmarks zur Bewertung kognitiver Aufgaben in Drohnenoperationen. Das vollständige Repository ist unter cognitivedrone.github.io verfügbar.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA)
model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand
advanced cognitive abilities. Trained on a dataset comprising over 8,000
simulated flight trajectories across three key categories-Human Recognition,
Symbol Understanding, and Reasoning-the model generates real-time 4D action
commands based on first-person visual inputs and textual instructions. To
further enhance performance in intricate scenarios, we propose
CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM)
reasoning module to simplify task directives prior to high-frequency control.
Experimental evaluations using our open-source benchmark, CognitiveDroneBench,
reveal that while a racing-oriented model (RaceVLA) achieves an overall success
rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and
CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate
improvements of up to 30% in critical cognitive tasks, underscoring the
effectiveness of incorporating advanced reasoning capabilities into UAV control
systems. Our contributions include the development of a state-of-the-art VLA
model for UAV control and the introduction of the first dedicated benchmark for
assessing cognitive tasks in drone operations. The complete repository is
available at cognitivedrone.github.ioSummary
AI-Generated Summary