Fundamentando los Modelos de Simulación del Mundo en una Metrópolis Real
Grounding World Simulation Models in a Real-World Metropolis
March 16, 2026
Autores: Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, Jin-Hwa Kim
cs.AI
Resumen
¿Y si un modelo de simulación mundial pudiera representar no un entorno imaginado, sino una ciudad que existe realmente? Los modelos generativos mundiales previos sintetizan entornos visualmente plausibles pero artificiales al imaginar todo el contenido. Presentamos Seoul World Model (SWM), un modelo mundial a escala de ciudad basado en la ciudad real de Seúl. SWM ancla la generación autoregresiva de video mediante un condicionamiento aumentado por recuperación de imágenes cercanas de vista de calle. Sin embargo, este diseño introduce varios desafíos, como la desalineación temporal entre las referencias recuperadas y la escena objetivo dinámica, la diversidad limitada de trayectorias y la escasez de datos provenientes de capturas montadas en vehículos a intervalos dispersos. Abordamos estos desafíos mediante el emparejamiento cross-temporal, un conjunto de datos sintético a gran escala que permite trayectorias de cámara diversas, y un pipeline de interpolación de vistas que sintetiza videos de entrenamiento coherentes a partir de imágenes de vista de calle dispersas. Además, introducimos un "Virtual Lookahead Sink" para estabilizar la generación de horizonte largo al re-anclar continuamente cada fragmento a una imagen recuperada en una ubicación futura. Evaluamos SWM comparándolo con modelos de video mundiales recientes en tres ciudades: Seúl, Busan y Ann Arbor. SWM supera a los métodos existentes en la generación de videos espacialmente fieles, temporalmente consistentes y de horizonte largo, basados en entornos urbanos reales a lo largo de trayectorias que alcanzan cientos de metros, a la vez que admite diversos movimientos de cámara y variaciones de escenario impulsadas por texto.
English
What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.