ChatPaper.aiChatPaper

Sprachbedingte Verkehrsgenerierung

Language Conditioned Traffic Generation

July 16, 2023
Autoren: Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl
cs.AI

Zusammenfassung

Simulation bildet das Rückgrat der modernen Entwicklung autonomer Fahrzeuge. Simulatoren unterstützen die Entwicklung, das Testen und die Verbesserung von Fahrzeugsystemen, ohne Menschen, Fahrzeuge oder deren Umgebung zu gefährden. Allerdings stehen Simulatoren vor einer großen Herausforderung: Sie sind auf realistische, skalierbare und dennoch interessante Inhalte angewiesen. Während jüngste Fortschritte im Bereich des Renderings und der Szenenrekonstruktion bedeutende Fortschritte bei der Erstellung statischer Szenenobjekte erzielt haben, bleibt die Modellierung ihrer Anordnung, Dynamik und Verhaltensweisen eine Herausforderung. In dieser Arbeit nutzen wir Sprache als Quelle der Überwachung für die Generierung dynamischer Verkehrsszenen. Unser Modell, LCTGen, kombiniert ein großes Sprachmodell mit einer Transformer-basierten Decoder-Architektur, die wahrscheinliche Kartenpositionen aus einem Datensatz von Karten auswählt und eine anfängliche Verkehrsverteilung sowie die Dynamik jedes Fahrzeugs erzeugt. LCTGen übertrifft frühere Arbeiten sowohl in der unbedingten als auch in der bedingten Generierung von Verkehrsszenen in Bezug auf Realismus und Detailtreue. Code und Videos werden unter https://ariostgx.github.io/lctgen verfügbar sein.
English
Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.
PDF50December 15, 2024