ChatPaper.aiChatPaper

Génération de trafic conditionnée par le langage

Language Conditioned Traffic Generation

July 16, 2023
Auteurs: Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl
cs.AI

Résumé

La simulation constitue l'épine dorsale du développement moderne des véhicules autonomes. Les simulateurs permettent de concevoir, tester et améliorer les systèmes de conduite sans mettre en danger les humains, les véhicules ou leur environnement. Cependant, les simulateurs font face à un défi majeur : ils dépendent de contenus réalistes, évolutifs et intéressants. Bien que les récentes avancées en rendu et reconstruction de scènes aient permis des progrès significatifs dans la création d'éléments de scène statiques, la modélisation de leur agencement, de leur dynamique et de leurs comportements reste complexe. Dans ce travail, nous utilisons le langage comme source de supervision pour la génération de scènes de trafic dynamiques. Notre modèle, LCTGen, combine un grand modèle de langage avec une architecture de décodeur basée sur des transformateurs, qui sélectionne des emplacements probables sur une carte à partir d'un ensemble de données cartographiques, et produit une distribution initiale du trafic ainsi que la dynamique de chaque véhicule. LCTGen surpasse les travaux antérieurs en termes de réalisme et de fidélité, que ce soit pour la génération de scènes de trafic inconditionnelle ou conditionnelle. Le code et les vidéos seront disponibles à l'adresse https://ariostgx.github.io/lctgen.
English
Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.
PDF50December 15, 2024