CityRAG: Adentrándose en una Ciudad mediante Generación de Vídeo con Base Espacial

Resumen

Abordamos el problema de generar un entorno navegable y 3D-consistente que esté geográficamente anclado: una simulación de una ubicación real. Los modelos generativos de video existentes pueden producir una secuencia plausible que sea consistente con un prompt de texto (T2V) o de imagen (I2V). Sin embargo, la capacidad de reconstruir el mundo real bajo condiciones climáticas arbitrarias y configuraciones dinámicas de objetos es esencial para aplicaciones posteriores, incluyendo la conducción autónoma y la simulación robótica. Con este fin, presentamos CityRAG, un modelo generativo de video que aprovecha grandes corpus de datos geo-registrados como contexto para anclar la generación a la escena física, manteniendo al mismo tiempo los *priors* aprendidos para cambios complejos de movimiento y apariencia. CityRAG se basa en datos de entrenamiento no alineados temporalmente, lo que enseña al modelo a separar semánticamente la escena subyacente de sus atributos transitorios. Nuestros experimentos demuestran que CityRAG puede generar secuencias de video coherentes, de varios minutos de duración y físicamente ancladas, mantener condiciones climáticas y de iluminación a lo largo de miles de fotogramas, lograr un cierre de ciclo y navegar trayectorias complejas para reconstruir la geografía del mundo real.

English

We address the problem of generating a 3D-consistent, navigable environment that is spatially grounded: a simulation of a real location. Existing video generative models can produce a plausible sequence that is consistent with a text (T2V) or image (I2V) prompt. However, the capability to reconstruct the real world under arbitrary weather conditions and dynamic object configurations is essential for downstream applications including autonomous driving and robotics simulation. To this end, we present CityRAG, a video generative model that leverages large corpora of geo-registered data as context to ground generation to the physical scene, while maintaining learned priors for complex motion and appearance changes. CityRAG relies on temporally unaligned training data, which teaches the model to semantically disentangle the underlying scene from its transient attributes. Our experiments demonstrate that CityRAG can generate coherent minutes-long, physically grounded video sequences, maintain weather and lighting conditions over thousands of frames, achieve loop closure, and navigate complex trajectories to reconstruct real-world geography.

CityRAG: Adentrándose en una Ciudad mediante Generación de Vídeo con Base Espacial

CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Resumen

Support