Fondare i Modelli di Simulazione del Mondo su una Metropoli del Mondo Reale

Abstract

E se un modello di simulazione mondiale potesse generare non un ambiente immaginario, ma una città che esiste realmente? I precedenti modelli generativi di mondi sintetizzano ambienti visivamente plausibili ma artificiali, immaginando tutto il contenuto. Presentiamo Seoul World Model (SWM), un modello di mondo su scala cittadina ancorato alla reale città di Seoul. SWM ancorala generazione video autoregressiva attraverso un condizionamento potenziato da retrieval su immagini street-view vicine. Tuttavia, questo progetto introduce diverse sfide, tra cui un disallineamento temporale tra i riferimenti recuperati e la scena target dinamica, una diversità limitata delle traiettorie e una sparsità dei dati dovuta a riprese montate su veicoli effettuate a intervalli radi. Affrontiamo queste sfide attraverso l'abbinamento cross-temporale, un ampio dataset sintetico che abilita traiettorie di telecamera diversificate e una pipeline di interpolazione delle viste che sintetizza video di addestramento coerenti a partire da immagini street-view sparse. Introduciamo inoltre un "Virtual Lookahead Sink" per stabilizzare la generazione a lungo termine riancorando continuamente ogni segmento a un'immagine recuperata in una posizione futura. Valutiamo SWM rispetto ai recenti modelli video di mondo in tre città: Seoul, Busan e Ann Arbor. SWM supera i metodi esistenti nella generazione di video spazialmente fedeli, temporalmente coerenti e a lungo termine, radicati in ambienti urbani reali, su traiettorie che raggiungono centinaia di metri, supportando al contempo movimenti di telecamera diversificati e variazioni di scenario suggerite da testo.

English

What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.

Fondare i Modelli di Simulazione del Mondo su una Metropoli del Mondo Reale

Grounding World Simulation Models in a Real-World Metropolis

Abstract

Support