ChatPaper.aiChatPaper

Geração de Tráfego Condicionada por Linguagem

Language Conditioned Traffic Generation

July 16, 2023
Autores: Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl
cs.AI

Resumo

A simulação forma a espinha dorsal do desenvolvimento moderno de veículos autônomos. Os simuladores ajudam a desenvolver, testar e aprimorar sistemas de direção sem colocar humanos, veículos ou seu ambiente em risco. No entanto, os simuladores enfrentam um grande desafio: eles dependem de conteúdo realista, escalável e, ao mesmo tempo, interessante. Embora avanços recentes em renderização e reconstrução de cenas tenham feito grandes progressos na criação de ativos de cena estáticos, modelar seu layout, dinâmicas e comportamentos continua desafiador. Neste trabalho, recorremos à linguagem como uma fonte de supervisão para a geração dinâmica de cenas de tráfego. Nosso modelo, LCTGen, combina um modelo de linguagem de grande escala com uma arquitetura decodificadora baseada em transformadores que seleciona locais prováveis em mapas a partir de um conjunto de dados de mapas e produz uma distribuição inicial de tráfego, bem como a dinâmica de cada veículo. O LCTGen supera trabalhos anteriores tanto na geração incondicional quanto na condicional de cenas de tráfego em termos de realismo e fidelidade. Código e vídeo estarão disponíveis em https://ariostgx.github.io/lctgen.
English
Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.
PDF50December 15, 2024