ChatPaper.aiChatPaper

CognitiveDrone: Un Modello VLA e Benchmark di Valutazione per la Risoluzione e il Ragionamento di Compiti Cognitivi in Tempo Reale nei UAV

CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs

March 3, 2025
Autori: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI

Abstract

Questo articolo presenta CognitiveDrone, un innovativo modello Vision-Language-Action (VLA) progettato per compiti complessi di Veicoli Aerei Senza Pilota (UAV) che richiedono avanzate capacità cognitive. Addestrato su un dataset comprendente oltre 8.000 traiettorie di volo simulate in tre categorie chiave—Riconoscimento Umano, Comprensione di Simboli e Ragionamento—il modello genera comandi d'azione 4D in tempo reale basati su input visivi in prima persona e istruzioni testuali. Per migliorare ulteriormente le prestazioni in scenari intricati, proponiamo CognitiveDrone-R1, che integra un modulo aggiuntivo di ragionamento Vision-Language Model (VLM) per semplificare le direttive dei compiti prima del controllo ad alta frequenza. Le valutazioni sperimentali utilizzando il nostro benchmark open-source, CognitiveDroneBench, rivelano che mentre un modello orientato alle gare (RaceVLA) raggiunge un tasso di successo complessivo del 31,3%, il modello base CognitiveDrone raggiunge il 59,6%, e CognitiveDrone-R1 ottiene un tasso di successo del 77,2%. Questi risultati dimostrano miglioramenti fino al 30% in compiti cognitivi critici, evidenziando l'efficacia dell'incorporazione di capacità di ragionamento avanzate nei sistemi di controllo degli UAV. I nostri contributi includono lo sviluppo di un modello VLA all'avanguardia per il controllo degli UAV e l'introduzione del primo benchmark dedicato alla valutazione di compiti cognitivi nelle operazioni dei droni. Il repository completo è disponibile su cognitivedrone.github.io.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA) model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand advanced cognitive abilities. Trained on a dataset comprising over 8,000 simulated flight trajectories across three key categories-Human Recognition, Symbol Understanding, and Reasoning-the model generates real-time 4D action commands based on first-person visual inputs and textual instructions. To further enhance performance in intricate scenarios, we propose CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM) reasoning module to simplify task directives prior to high-frequency control. Experimental evaluations using our open-source benchmark, CognitiveDroneBench, reveal that while a racing-oriented model (RaceVLA) achieves an overall success rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate improvements of up to 30% in critical cognitive tasks, underscoring the effectiveness of incorporating advanced reasoning capabilities into UAV control systems. Our contributions include the development of a state-of-the-art VLA model for UAV control and the introduction of the first dedicated benchmark for assessing cognitive tasks in drone operations. The complete repository is available at cognitivedrone.github.io

Summary

AI-Generated Summary

PDF32March 6, 2025