Ancrage des modèles de simulation du monde dans une métropole réelle

Résumé

Et si un modèle de simulation du monde pouvait restituer non pas un environnement imaginaire, mais une ville existant réellement ? Les modèles génératifs de monde antérieurs synthétisent des environnements visuellement plausibles mais artificiels en imaginant l'intégralité du contenu. Nous présentons le Seoul World Model (SWM), un modèle de monde à l'échelle d'une ville, ancré dans la ville réelle de Séoul. SWM ancre la génération vidéo autorégressive via un conditionnement augmenté par retrieval sur des images Street View à proximité. Cependant, cette conception introduit plusieurs défis, notamment un décalage temporel entre les références récupérées et la scène cible dynamique, une diversité de trajectoires limitée et une parcimonie des données issues de captures à intervalles espacés depuis des véhicules. Nous abordons ces défis grâce à l'appariement cross-temporel, un vaste jeu de données synthétiques permettant des trajectoires caméra variées, et un pipeline d'interpolation de vues qui synthétise des vidéos d'apprentissage cohérentes à partir d'images Street View éparses. Nous introduisons en outre un « Virtual Lookahead Sink » pour stabiliser la génération à long terme en ré-ancrant continuellement chaque segment sur une image récupérée à une future localisation. Nous évaluons SWM par rapport à des modèles de monde vidéo récents dans trois villes : Séoul, Busan et Ann Arbor. SWM surpasse les méthodes existantes pour générer des vidéos spatialement fidèles, temporellement cohérentes et à long horizon, ancrées dans des environnements urbains réels sur des trajectoires atteignant des centaines de mètres, tout en prenant en charge des mouvements de caméra diversifiés et des variations de scénario guidées par texte.

English

What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.

Ancrage des modèles de simulation du monde dans une métropole réelle

Grounding World Simulation Models in a Real-World Metropolis

Résumé

Support