ChatPaper.aiChatPaper

V2V-GoT: 다중 모드 대형 언어 모델과 그래프 오브 사고를 활용한 차량 간 협력형 자율 주행

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

September 22, 2025
저자: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith
cs.AI

초록

현재 최첨단 자율주행 차량은 도로상의 근접한 대형 물체에 의해 로컬 센서가 가려지는 상황에서 안전 위험에 직면할 수 있습니다. 이러한 문제를 해결하기 위해 차량 간 협력 자율주행(V2V)이 제안되었으며, 최근 도입된 협력 자율주행 프레임워크는 협력 인식 및 계획 프로세스를 통합하기 위해 다중모드 대형 언어 모델(MLLM)을 접목한 방식을 추가로 채택했습니다. 그러나 MLLM에 그래프 오브 생각(Graph-of-Thoughts) 추론을 적용할 경우의 잠재적 이점에도 불구하고, 이 아이디어는 기존의 협력 자율주행 연구에서 고려되지 않았습니다. 본 논문에서는 MLLM 기반 협력 자율주행을 위해 특별히 설계된 새로운 그래프 오브 생각 프레임워크를 제안합니다. 우리의 그래프 오브 생각은 가려짐 인식 인식(occlusion-aware perception) 및 계획 인식 예측(planning-aware prediction)이라는 새로운 아이디어를 포함합니다. 또한 협력 주행 그래프 오브 생각을 학습하고 테스트하기 위해 V2V-GoT-QA 데이터셋을 구축하고 V2V-GoT 모델을 개발했습니다. 실험 결과, 우리의 방법은 협력 인식, 예측 및 계획 작업에서 다른 베이스라인을 능가하는 성능을 보여줍니다.
English
Current state-of-the-art autonomous vehicles could face safety-critical situations when their local sensors are occluded by large nearby objects on the road. Vehicle-to-vehicle (V2V) cooperative autonomous driving has been proposed as a means of addressing this problem, and one recently introduced framework for cooperative autonomous driving has further adopted an approach that incorporates a Multimodal Large Language Model (MLLM) to integrate cooperative perception and planning processes. However, despite the potential benefit of applying graph-of-thoughts reasoning to the MLLM, this idea has not been considered by previous cooperative autonomous driving research. In this paper, we propose a novel graph-of-thoughts framework specifically designed for MLLM-based cooperative autonomous driving. Our graph-of-thoughts includes our proposed novel ideas of occlusion-aware perception and planning-aware prediction. We curate the V2V-GoT-QA dataset and develop the V2V-GoT model for training and testing the cooperative driving graph-of-thoughts. Our experimental results show that our method outperforms other baselines in cooperative perception, prediction, and planning tasks.
PDF32September 23, 2025