ChatPaper.aiChatPaper

Генерация трафика с учетом языковых условий

Language Conditioned Traffic Generation

July 16, 2023
Авторы: Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl
cs.AI

Аннотация

Симуляция составляет основу современной разработки автономных транспортных средств. Симуляторы помогают разрабатывать, тестировать и улучшать системы вождения, не подвергая риску людей, транспортные средства или окружающую среду. Однако перед симуляторами стоит серьезная задача: они зависят от реалистичного, масштабируемого и при этом интересного контента. Хотя последние достижения в области рендеринга и реконструкции сцен значительно продвинулись в создании статических элементов сцены, моделирование их расположения, динамики и поведения остается сложной задачей. В данной работе мы обращаемся к языку как к источнику контроля для генерации динамических сцен дорожного движения. Наша модель, LCTGen, сочетает в себе крупную языковую модель с архитектурой декодера на основе трансформеров, которая выбирает вероятные местоположения на карте из набора данных карт и создает начальное распределение трафика, а также динамику каждого транспортного средства. LCTGen превосходит предыдущие работы как в безусловной, так и в условной генерации сцен дорожного движения с точки зрения реализма и точности. Код и видео будут доступны по адресу https://ariostgx.github.io/lctgen.
English
Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.
PDF50December 15, 2024