Verankerung von Welt-Simulationsmodellen in einer realen Metropole

Zusammenfassung

Was wäre, wenn ein Welt-Simulationsmodell nicht nur eine imaginäre Umgebung, sondern eine tatsächlich existierende Stadt darstellen könnte? Bisherige generative Weltmodelle synthetisieren visuell plausible, aber künstliche Umgebungen, indem sie sämtliche Inhalte erzeugen. Wir stellen das Seoul World Model (SWM) vor, ein stadtgroßes Weltmodell, das auf der realen Stadt Seoul basiert. SWM verankert die autoregressive Videogenerierung durch retrieval-augmentierte Konditionierung auf nahegelegene Street-View-Bilder. Diese Konzeption bringt jedoch mehrere Herausforderungen mit sich, darunter zeitliche Fehlausrichtung zwischen abgerufenen Referenzen und der dynamischen Zielszene, begrenzte Trajektorienvielfalt und Datenlücken durch kameramontierte Aufnahmen in großen Intervallen. Wir begegnen diesen Herausforderungen durch cross-temporale Paarung, einen umfangreichen synthetischen Datensatz für diverse Kameratrajektorien und eine View-Interpolations-Pipeline, die aus spärlichen Street-View-Bildern kohärente Trainingsvideos synthetisiert. Zusätzlich führen wir eine Virtual-Lookahead-Sink ein, um die Langzeiterzeugung zu stabilisieren, indem jedes Segment kontinuierlich an einem zukünftigen Standort neu in einem abgerufenen Bild verankert wird. Wir evaluieren SWM im Vergleich zu aktuellen Video-Weltmodellen in drei Städten: Seoul, Busan und Ann Arbor. SWM übertrifft bestehende Methoden bei der Erzeugung von räumlich treuen, zeitlich konsistenten Langzeitvideos, die in realen urbanen Umgebungen über mehrere hundert Meter verankert sind, und unterstützt dabei diverse Kamerabewegungen und textgesteuerte Szenariovariationen.

English

What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.

Verankerung von Welt-Simulationsmodellen in einer realen Metropole

Grounding World Simulation Models in a Real-World Metropolis

Zusammenfassung

Support