CognitiveDrone: 실시간 인지 작업 해결 및 추론을 위한 VLA 모델 및 UAV 평가 벤치마크
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs
March 3, 2025
저자: Artem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou
cs.AI
초록
본 논문은 고급 인지 능력이 요구되는 복잡한 무인항공기(UAV) 작업을 위해 특화된 새로운 Vision-Language-Action(VLA) 모델인 CognitiveDrone을 소개한다. 이 모델은 인간 인식(Human Recognition), 기호 이해(Symbol Understanding), 추론(Reasoning)이라는 세 가지 주요 범주에 걸쳐 8,000개 이상의 시뮬레이션 비행 궤적 데이터셋으로 학습되었으며, 1인칭 시각 입력과 텍스트 지침을 기반으로 실시간 4D 동작 명령을 생성한다. 복잡한 시나리오에서의 성능을 더욱 향상시키기 위해, 고주파 제어 전에 작업 지시를 단순화하는 추가적인 Vision-Language Model(VLM) 추론 모듈을 통합한 CognitiveDrone-R1을 제안한다. 오픈소스 벤치마크인 CognitiveDroneBench를 사용한 실험 평가 결과, 레이싱 중심 모델(RaceVLA)은 31.3%의 전반적 성공률을 달성한 반면, 기본 CognitiveDrone 모델은 59.6%, CognitiveDrone-R1은 77.2%의 성공률을 기록했다. 이러한 결과는 UAV 제어 시스템에 고급 추론 능력을 통합함으로써 주요 인지 작업에서 최대 30%의 성능 향상을 보여준다. 본 연구의 기여는 UAV 제어를 위한 최첨단 VLA 모델 개발과 드론 작업에서의 인지 작업 평가를 위한 첫 전용 벤치마크 도입을 포함한다. 전체 저장소는 cognitivedrone.github.io에서 확인할 수 있다.
English
This paper introduces CognitiveDrone, a novel Vision-Language-Action (VLA)
model tailored for complex Unmanned Aerial Vehicles (UAVs) tasks that demand
advanced cognitive abilities. Trained on a dataset comprising over 8,000
simulated flight trajectories across three key categories-Human Recognition,
Symbol Understanding, and Reasoning-the model generates real-time 4D action
commands based on first-person visual inputs and textual instructions. To
further enhance performance in intricate scenarios, we propose
CognitiveDrone-R1, which integrates an additional Vision-Language Model (VLM)
reasoning module to simplify task directives prior to high-frequency control.
Experimental evaluations using our open-source benchmark, CognitiveDroneBench,
reveal that while a racing-oriented model (RaceVLA) achieves an overall success
rate of 31.3%, the base CognitiveDrone model reaches 59.6%, and
CognitiveDrone-R1 attains a success rate of 77.2%. These results demonstrate
improvements of up to 30% in critical cognitive tasks, underscoring the
effectiveness of incorporating advanced reasoning capabilities into UAV control
systems. Our contributions include the development of a state-of-the-art VLA
model for UAV control and the introduction of the first dedicated benchmark for
assessing cognitive tasks in drone operations. The complete repository is
available at cognitivedrone.github.ioSummary
AI-Generated Summary