Évaluation des modèles de langage de grande taille pour la prise de décision dans la conduite autonome
Evaluation of Large Language Models for Decision Making in Autonomous Driving
December 11, 2023
Auteurs: Kotaro Tanahashi, Yuichi Inoue, Yu Yamaguchi, Hidetatsu Yaginuma, Daiki Shiotsuka, Hiroyuki Shimatani, Kohei Iwamasa, Yoshiaki Inoue, Takafumi Yamaguchi, Koki Igari, Tsukasa Horinouchi, Kento Tokuhiro, Yugo Tokuchi, Shunsuke Aoki
cs.AI
Résumé
Diverses méthodes ont été proposées pour exploiter les modèles de langage de grande taille (LLMs) dans le domaine de la conduite autonome. Une stratégie consiste à utiliser les LLMs en leur fournissant comme entrées des descriptions textuelles des objets environnants, accompagnées de leurs coordonnées et informations de vitesse, afin de prédire les mouvements ultérieurs du véhicule. Pour de telles applications, les LLMs doivent posséder des capacités essentielles telles que la reconnaissance spatiale et la planification. Plus précisément, deux compétences fondamentales sont nécessaires : (1) la prise de décision spatialement consciente, c'est-à-dire la capacité à interpréter les informations de coordonnées pour éviter les collisions, et (2) la capacité à respecter les règles de circulation. Cependant, aucune recherche quantitative n'a été menée pour évaluer avec quelle précision différents types de LLMs peuvent gérer ces problèmes. Dans cette étude, nous avons quantifié ces deux compétences des LLMs dans le contexte de la conduite autonome. Par ailleurs, pour réaliser une preuve de concept (POC) de la faisabilité de l'implémentation de ces capacités dans des véhicules réels, nous avons développé un système utilisant les LLMs pour piloter un véhicule.
English
Various methods have been proposed for utilizing Large Language Models (LLMs)
in autonomous driving. One strategy of using LLMs for autonomous driving
involves inputting surrounding objects as text prompts to the LLMs, along with
their coordinate and velocity information, and then outputting the subsequent
movements of the vehicle. When using LLMs for such purposes, capabilities such
as spatial recognition and planning are essential. In particular, two
foundational capabilities are required: (1) spatial-aware decision making,
which is the ability to recognize space from coordinate information and make
decisions to avoid collisions, and (2) the ability to adhere to traffic rules.
However, quantitative research has not been conducted on how accurately
different types of LLMs can handle these problems. In this study, we
quantitatively evaluated these two abilities of LLMs in the context of
autonomous driving. Furthermore, to conduct a Proof of Concept (POC) for the
feasibility of implementing these abilities in actual vehicles, we developed a
system that uses LLMs to drive a vehicle.