CityRAG: Погружение в город через пространственно-привязанную генерацию видео

Аннотация

Мы решаем задачу генерации трёхмерно-согласованной, навигируемой среды, которая пространственно привязана к реальности: симуляции реального местоположения. Существующие модели генерации видео способны создавать правдоподобную последовательность, согласованную с текстовым (T2V) или изображенческим (I2V) промптом. Однако способность реконструировать реальный мир при произвольных погодных условиях и динамических конфигурациях объектов крайне важна для прикладных задач, включая автономное вождение и симуляцию робототехники. Для решения этой задачи мы представляем CityRAG — модель генерации видео, которая использует большие корпусы геопривязанных данных в качестве контекста для привязки генерации к физической сцене, сохраняя при этом ранее изученные паттерны для сложных изменений движения и внешнего вида. CityRAG опирается на данные обучения, не выровненные по времени, что учит модель семантически разделять базовую сцену и её изменчивые атрибуты. Наши эксперименты демонстрируют, что CityRAG способна генерировать согласованные минуты длящиеся, физически обоснованные видеопоследовательности, поддерживать погодные и световые условия на протяжении тысяч кадров, достигать замыкания траектории и навигировать по сложным маршрутам для реконструкции реальной географии.

English

We address the problem of generating a 3D-consistent, navigable environment that is spatially grounded: a simulation of a real location. Existing video generative models can produce a plausible sequence that is consistent with a text (T2V) or image (I2V) prompt. However, the capability to reconstruct the real world under arbitrary weather conditions and dynamic object configurations is essential for downstream applications including autonomous driving and robotics simulation. To this end, we present CityRAG, a video generative model that leverages large corpora of geo-registered data as context to ground generation to the physical scene, while maintaining learned priors for complex motion and appearance changes. CityRAG relies on temporally unaligned training data, which teaches the model to semantically disentangle the underlying scene from its transient attributes. Our experiments demonstrate that CityRAG can generate coherent minutes-long, physically grounded video sequences, maintain weather and lighting conditions over thousands of frames, achieve loop closure, and navigate complex trajectories to reconstruct real-world geography.

CityRAG: Погружение в город через пространственно-привязанную генерацию видео

CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Аннотация

Support