CityRAG: Entrare in una Città Attraverso la Generazione di Video Territorialmente Contestualizzati

Abstract

Affrontiamo il problema della generazione di un ambiente navigabile, tridimensionalmente coerente e geograficamente ancorato: una simulazione di una località reale. I modelli generativi video esistenti possono produrre una sequenza plausibile e coerente con un prompt testuale (T2V) o di immagine (I2V). Tuttavia, la capacità di ricostruire il mondo reale in condizioni meteorologiche arbitrarie e con configurazioni dinamiche degli oggetti è essenziale per applicazioni downstream, come la guida autonoma e la simulazione robotica. A tal fine, presentiamo CityRAG, un modello generativo video che sfrutta grandi corpora di dati geo-referenziati come contesto per ancorare la generazione alla scena fisica, preservando al contempo i prior appresi per i cambiamenti complessi di movimento e aspetto. CityRAG si basa su dati di addestramento temporalmente non allineati, che insegnano al modello a separare semanticamente la scena sottostante dai suoi attributi transienti. I nostri esperimenti dimostrano che CityRAG è in grado di generare sequenze video coerenti e lunghe diversi minuti, fisicamente ancorate, di mantenere condizioni meteorologiche e di illuminazione per migliaia di fotogrammi, di ottenere una chiusura del ciclo e di navigare traiettorie complesse per ricostruire la geografia del mondo reale.

English

We address the problem of generating a 3D-consistent, navigable environment that is spatially grounded: a simulation of a real location. Existing video generative models can produce a plausible sequence that is consistent with a text (T2V) or image (I2V) prompt. However, the capability to reconstruct the real world under arbitrary weather conditions and dynamic object configurations is essential for downstream applications including autonomous driving and robotics simulation. To this end, we present CityRAG, a video generative model that leverages large corpora of geo-registered data as context to ground generation to the physical scene, while maintaining learned priors for complex motion and appearance changes. CityRAG relies on temporally unaligned training data, which teaches the model to semantically disentangle the underlying scene from its transient attributes. Our experiments demonstrate that CityRAG can generate coherent minutes-long, physically grounded video sequences, maintain weather and lighting conditions over thousands of frames, achieve loop closure, and navigate complex trajectories to reconstruct real-world geography.

CityRAG: Entrare in una Città Attraverso la Generazione di Video Territorialmente Contestualizzati

CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Abstract

Support