Paesaggi Urbani: Generazione Coerente su Larga Scala di Vedute Stradali Utilizzando la Diffusione Autoregressiva di Video

Abstract

Presentiamo un metodo per generare sequenze di vedute urbane (Streetscapes) attraverso una scena sintetizzata in tempo reale su scala cittadina. La nostra generazione è condizionata da input linguistici (ad esempio, nome della città, condizioni meteorologiche), nonché da una mappa/layout sottostante che ospita la traiettoria desiderata. Rispetto ai modelli recenti per la generazione di video o la sintesi di viste 3D, il nostro metodo può scalare a traiettorie della fotocamera molto più lunghe, che coprono diversi isolati cittadini, mantenendo qualità visiva e coerenza. Per raggiungere questo obiettivo, ci basiamo su lavori recenti sulla diffusione video, utilizzati all'interno di un framework autoregressivo che può facilmente scalare a sequenze lunghe. In particolare, introduciamo un nuovo metodo di interpolazione temporale che impedisce al nostro approccio autoregressivo di discostarsi dalla distribuzione di immagini urbane realistiche. Addestriamo il nostro sistema Streetscapes su una fonte convincente di dati: immagini geolocalizzate da Google Street View, insieme a dati contestuali della mappa, che consentono agli utenti di generare viste cittadine condizionate su qualsiasi layout urbano desiderato, con pose della fotocamera controllabili. Per ulteriori risultati, consultate la pagina del nostro progetto all'indirizzo https://boyangdeng.com/streetscapes.

English

We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.

Paesaggi Urbani: Generazione Coerente su Larga Scala di Vedute Stradali Utilizzando la Diffusione Autoregressiva di Video

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Abstract

Support