ChatPaper.aiChatPaper

Generación de Tráfico Condicionada por Lenguaje

Language Conditioned Traffic Generation

July 16, 2023
Autores: Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl
cs.AI

Resumen

La simulación constituye la columna vertebral del desarrollo moderno de vehículos autónomos. Los simuladores permiten desarrollar, probar y mejorar los sistemas de conducción sin poner en riesgo a las personas, los vehículos o su entorno. Sin embargo, los simuladores enfrentan un desafío importante: dependen de contenido realista, escalable y a la vez interesante. Si bien los avances recientes en renderizado y reconstrucción de escenas han logrado grandes progresos en la creación de activos de escenas estáticas, modelar su disposición, dinámicas y comportamientos sigue siendo un reto. En este trabajo, recurrimos al lenguaje como fuente de supervisión para la generación de escenas de tráfico dinámico. Nuestro modelo, LCTGen, combina un modelo de lenguaje de gran escala con una arquitectura decodificadora basada en transformadores que selecciona ubicaciones probables en mapas a partir de un conjunto de datos de mapas, y produce una distribución inicial de tráfico, así como las dinámicas de cada vehículo. LCTGen supera trabajos previos en la generación de escenas de tráfico tanto incondicional como condicional en términos de realismo y fidelidad. El código y el video estarán disponibles en https://ariostgx.github.io/lctgen.
English
Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.
PDF50December 15, 2024