CityRAG: Entrando em uma Cidade através da Geração de Vídeo Espacialmente Fundamentada

Resumo

Abordamos o problema de gerar um ambiente navegável e tridimensionalmente consistente que esteja espacialmente fundamentado: uma simulação de uma localização real. Modelos generativos de vídeo existentes podem produzir uma sequência plausível que é consistente com um prompt de texto (T2V) ou imagem (I2V). No entanto, a capacidade de reconstruir o mundo real sob condições climáticas arbitrárias e configurações dinâmicas de objetos é essencial para aplicações downstream, incluindo condução autónoma e simulação robótica. Para esse fim, apresentamos o CityRAG, um modelo generativo de vídeo que aproveita grandes corpora de dados geo-registados como contexto para fundamentar a geração na cena física, mantendo ao mesmo tempo prioridades aprendidas para mudanças complexas de movimento e aparência. O CityRAG baseia-se em dados de treino temporalmente não alinhados, o que ensina o modelo a separar semanticamente a cena subjacente dos seus atributos transitórios. As nossas experiências demonstram que o CityRAG pode gerar sequências de vídeo coerentes, com duração de minutos e fisicamente fundamentadas, manter condições meteorológicas e de iluminação ao longo de milhares de frames, alcançar *loop closure* e navegar trajetórias complexas para reconstruir a geografia do mundo real.

English

We address the problem of generating a 3D-consistent, navigable environment that is spatially grounded: a simulation of a real location. Existing video generative models can produce a plausible sequence that is consistent with a text (T2V) or image (I2V) prompt. However, the capability to reconstruct the real world under arbitrary weather conditions and dynamic object configurations is essential for downstream applications including autonomous driving and robotics simulation. To this end, we present CityRAG, a video generative model that leverages large corpora of geo-registered data as context to ground generation to the physical scene, while maintaining learned priors for complex motion and appearance changes. CityRAG relies on temporally unaligned training data, which teaches the model to semantically disentangle the underlying scene from its transient attributes. Our experiments demonstrate that CityRAG can generate coherent minutes-long, physically grounded video sequences, maintain weather and lighting conditions over thousands of frames, achieve loop closure, and navigate complex trajectories to reconstruct real-world geography.

CityRAG: Entrando em uma Cidade através da Geração de Vídeo Espacialmente Fundamentada

CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Resumo

Support