CognitiveDrone: Un modelo VLA y banco de evaluación para la resolución de tareas cognitivas y razonamiento en tiempo real en UAVs
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs
March 3, 2025
Autores: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI
Resumen
Este artículo presenta CognitiveDrone, un novedoso modelo Visión-Lenguaje-Acción (VLA) diseñado para tareas complejas de Vehículos Aéreos No Tripulados (UAV) que requieren habilidades cognitivas avanzadas. Entrenado en un conjunto de datos que comprende más de 8,000 trayectorias de vuelo simuladas en tres categorías clave—Reconocimiento Humano, Comprensión de Símbolos y Razonamiento—el modelo genera comandos de acción 4D en tiempo real basados en entradas visuales en primera persona e instrucciones textuales. Para mejorar aún más el rendimiento en escenarios intrincados, proponemos CognitiveDrone-R1, que integra un módulo adicional de razonamiento de Modelo Visión-Lenguaje (VLM) para simplificar las directivas de tareas antes del control de alta frecuencia. Las evaluaciones experimentales utilizando nuestro punto de referencia de código abierto, CognitiveDroneBench, revelan que mientras un modelo orientado a carreras (RaceVLA) alcanza una tasa de éxito general del 31.3%, el modelo base CognitiveDrone llega al 59.6%, y CognitiveDrone-R1 logra una tasa de éxito del 77.2%. Estos resultados demuestran mejoras de hasta el 30% en tareas cognitivas críticas, destacando la efectividad de incorporar capacidades de razonamiento avanzado en los sistemas de control de UAV. Nuestras contribuciones incluyen el desarrollo de un modelo VLA de última generación para el control de UAV y la introducción del primer punto de referencia dedicado para evaluar tareas cognitivas en operaciones de drones. El repositorio completo está disponible en cognitivedrone.github.io.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA)
model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand
advanced cognitive abilities. Trained on a dataset comprising over 8,000
simulated flight trajectories across three key categories-Human Recognition,
Symbol Understanding, and Reasoning-the model generates real-time 4D action
commands based on first-person visual inputs and textual instructions. To
further enhance performance in intricate scenarios, we propose
CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM)
reasoning module to simplify task directives prior to high-frequency control.
Experimental evaluations using our open-source benchmark, CognitiveDroneBench,
reveal that while a racing-oriented model (RaceVLA) achieves an overall success
rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and
CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate
improvements of up to 30% in critical cognitive tasks, underscoring the
effectiveness of incorporating advanced reasoning capabilities into UAV control
systems. Our contributions include the development of a state-of-the-art VLA
model for UAV control and the introduction of the first dedicated benchmark for
assessing cognitive tasks in drone operations. The complete repository is
available at cognitivedrone.github.ioSummary
AI-Generated Summary