Verankering van Wereldsimulatiemodellen in een Realistische Metropool

Samenvatting

Stel je voor dat een wereldsimulatiemodel niet een verzonnen omgeving weergeeft, maar een stad die daadwerkelijk bestaat. Bestaande generatieve wereldmodellen synthetiseren visueel geloofwaardige, maar kunstmatige omgevingen door alle inhoud te verbeelden. Wij presenteren het Seoul World Model (SWM), een wereldmodel op stadschaal dat is verankerd in de echte stad Seoul. SWM verankert autoregressieve videogeneratie door retrieval-augmented conditionering op nabije street-view-beelden. Dit ontwerp brengt echter verschillende uitdagingen met zich mee, waaronder temporele misalignering tussen opgehaalde referenties en de dynamische doelscène, beperkte trajectdiversiteit en datasparsity door vanaf voertuigen gemaakte opnames met grote tussenpozen. Wij pakken deze uitdagingen aan via cross-temporele koppeling, een grootschalige synthetische dataset die diverse cameratrajecten mogelijk maakt, en een view-interpolatiepijplijn die coherente trainingsvideo's synthetiseert uit schaarse street-view-beelden. Verder introduceren we een Virtual Lookahead Sink om de generatie op lange termijn te stabiliseren door elk segment continu opnieuw te verankeren aan een opgehaald beeld op een toekomstige locatie. We evalueren SWM tegen recente videowereldmodellen in drie steden: Seoul, Busan en Ann Arbor. SWM overtreft bestaande methoden in het genereren van ruimtelijk getrouwe, temporeel consistente video's op lange termijn, verankerd in werkelijke stedelijke omgevingen over trajecten van honderden meters, terwijl het diverse camerabewegingen en tekstgeprompte scenario-variaties ondersteunt.

English

What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.

Verankering van Wereldsimulatiemodellen in een Realistische Metropool

Grounding World Simulation Models in a Real-World Metropolis

Samenvatting

Support