現実世界の大都市に基づく世界シミュレーションモデルの構築
Grounding World Simulation Models in a Real-World Metropolis
March 16, 2026
著者: Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, Jin-Hwa Kim
cs.AI
要旨
もし世界シミュレーションモデルが、想像上の環境ではなく、実在する都市を描画できるとしたらどうだろうか?従来の生成的ワールドモデルは、すべてのコンテンツを想像力で生成することで、視覚的に妥当ではあるが人工的な環境を合成してきた。本論文では、実在する都市ソウルに基づいた都市規模のワールドモデル「Seoul World Model (SWM)」を提案する。SWMは、近隣のストリートビュー画像を検索強化型条件付けとして用いることで、自己回帰的なビデオ生成を現実に基づいて行う。しかし、この設計にはいくつかの課題がある。具体的には、検索された参照画像と動的なターゲットシーン間の時間的な不一致、車載カメラによる間隔の空いた撮影に起因する軌道の多様性の限界、データの希薄性などである。我々は、多様なカメラ軌道を可能にする大規模合成データセットによる「時間横断的ペアリング」、および疎なストリートビュー画像から一貫性のあるトレーニング用ビデオを合成する「視点補間パイプライン」を通じて、これらの課題に対処する。さらに、将来位置で取得された画像に各チャンクを継続的に再接地することで、長期的な生成を安定化する「仮想先読みシンク」を導入する。SWMを、ソウル、釜山、アナーバーの3都市で最近のビデオワールドモデルと比較評価した。その結果、SWMは数百メートルに及ぶ軌道上で、実際の都市環境に基づいた空間的に正確で時間的に一貫性のある長期的ビデオの生成において既存手法を凌駕し、多様なカメラ動作やテキストプロンプトによるシナリオ変化にも対応できることを示す。
English
What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.