Geração de Tráfego Condicionada por Linguagem
Language Conditioned Traffic Generation
July 16, 2023
Autores: Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl
cs.AI
Resumo
A simulação forma a espinha dorsal do desenvolvimento moderno de veículos autônomos. Os simuladores ajudam a desenvolver, testar e aprimorar sistemas de direção sem colocar humanos, veículos ou seu ambiente em risco. No entanto, os simuladores enfrentam um grande desafio: eles dependem de conteúdo realista, escalável e, ao mesmo tempo, interessante. Embora avanços recentes em renderização e reconstrução de cenas tenham feito grandes progressos na criação de ativos de cena estáticos, modelar seu layout, dinâmicas e comportamentos continua desafiador. Neste trabalho, recorremos à linguagem como uma fonte de supervisão para a geração dinâmica de cenas de tráfego. Nosso modelo, LCTGen, combina um modelo de linguagem de grande escala com uma arquitetura decodificadora baseada em transformadores que seleciona locais prováveis em mapas a partir de um conjunto de dados de mapas e produz uma distribuição inicial de tráfego, bem como a dinâmica de cada veículo. O LCTGen supera trabalhos anteriores tanto na geração incondicional quanto na condicional de cenas de tráfego em termos de realismo e fidelidade. Código e vídeo estarão disponíveis em https://ariostgx.github.io/lctgen.
English
Simulation forms the backbone of modern self-driving development. Simulators
help develop, test, and improve driving systems without putting humans,
vehicles, or their environment at risk. However, simulators face a major
challenge: They rely on realistic, scalable, yet interesting content. While
recent advances in rendering and scene reconstruction make great strides in
creating static scene assets, modeling their layout, dynamics, and behaviors
remains challenging. In this work, we turn to language as a source of
supervision for dynamic traffic scene generation. Our model, LCTGen, combines a
large language model with a transformer-based decoder architecture that selects
likely map locations from a dataset of maps, and produces an initial traffic
distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior
work in both unconditional and conditional traffic scene generation in terms of
realism and fidelity. Code and video will be available at
https://ariostgx.github.io/lctgen.