ChatPaper.aiChatPaper

V2V-GoT: Кооперативное автономное вождение с использованием мультимодальных больших языковых моделей и графа мыслей для взаимодействия между транспортными средствами

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

September 22, 2025
Авторы: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith
cs.AI

Аннотация

Современные автономные транспортные средства, находящиеся на переднем крае технологий, могут столкнуться с критическими для безопасности ситуациями, когда их локальные сенсоры оказываются заблокированными крупными объектами на дороге. Для решения этой проблемы было предложено взаимодействие между транспортными средствами (V2V) в рамках кооперативного автономного вождения. Один из недавно представленных подходов к кооперативному автономному вождению дополнительно включает использование мультимодальной крупной языковой модели (MLLM) для интеграции процессов кооперативного восприятия и планирования. Однако, несмотря на потенциальные преимущества применения рассуждений на основе графа мыслей (graph-of-thoughts) к MLLM, эта идея ранее не рассматривалась в исследованиях по кооперативному автономному вождению. В данной статье мы предлагаем новый фреймворк графа мыслей, специально разработанный для кооперативного автономного вождения на основе MLLM. Наш граф мыслей включает предложенные нами новые идеи восприятия с учетом заслонений и прогнозирования с учетом планирования. Мы создаем набор данных V2V-GoT-QA и разрабатываем модель V2V-GoT для обучения и тестирования графа мыслей в контексте кооперативного вождения. Результаты экспериментов показывают, что наш метод превосходит другие базовые подходы в задачах кооперативного восприятия, прогнозирования и планирования.
English
Current state-of-the-art autonomous vehicles could face safety-critical situations when their local sensors are occluded by large nearby objects on the road. Vehicle-to-vehicle (V2V) cooperative autonomous driving has been proposed as a means of addressing this problem, and one recently introduced framework for cooperative autonomous driving has further adopted an approach that incorporates a Multimodal Large Language Model (MLLM) to integrate cooperative perception and planning processes. However, despite the potential benefit of applying graph-of-thoughts reasoning to the MLLM, this idea has not been considered by previous cooperative autonomous driving research. In this paper, we propose a novel graph-of-thoughts framework specifically designed for MLLM-based cooperative autonomous driving. Our graph-of-thoughts includes our proposed novel ideas of occlusion-aware perception and planning-aware prediction. We curate the V2V-GoT-QA dataset and develop the V2V-GoT model for training and testing the cooperative driving graph-of-thoughts. Our experimental results show that our method outperforms other baselines in cooperative perception, prediction, and planning tasks.
PDF32September 23, 2025