Обоснование моделей симуляции миров в условиях реального мегаполиса

Аннотация

Что, если бы модель симуляции мира могла воспроизводить не вымышленное окружение, а реально существующий город? Предшествующие генеративные мировые модели синтезируют визуально правдоподобные, но искусственные среды, полностью создавая весь контент. Мы представляем Seoul World Model (SWM) — модель мира городского масштаба, основанную на реальном городе Сеуле. SWM обеспечивает авторегрессионную генерацию видео за счет условного управления, усиленного поиском по ближайшим панорамным снимкам улиц. Однако такая конструкция порождает ряд проблем, включая временное несоответствие между найденными референсами и динамической целевой сценой, ограниченное разнообразие траекторий и разреженность данных из-за съемки с транспортных средств через большие интервалы. Мы решаем эти проблемы с помощью кросс-временного спаривания, крупномасштабного синтетического набора данных для разнообразных траекторий камеры и конвейера интерполяции видов, который синтезирует согласованные обучающие видео из разреженных панорамных изображений. Дополнительно мы представляем механизм «Виртуального взгляда вперед» для стабилизации долгосрочной генерации путем постоянного перепривязывания каждого фрагмента к найденному изображению в будущем местоположении. Мы оцениваем SWM в сравнении с последними моделями видео-мира в трех городах: Сеул, Пусан и Энн-Арбор. SWM превосходит существующие методы в генерации пространственно точных, временно согласованных, долгосрочных видео, основанных на реальных городских средах, с траекториями протяженностью в сотни метров, при этом поддерживая разнообразные движения камеры и вариации сценариев по текстовым запросам.

English

What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.

Обоснование моделей симуляции миров в условиях реального мегаполиса

Grounding World Simulation Models in a Real-World Metropolis

Аннотация

Support