Paesaggi Urbani: Generazione Coerente su Larga Scala di Vedute Stradali Utilizzando la Diffusione Autoregressiva di Video
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
July 18, 2024
Autori: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein
cs.AI
Abstract
Presentiamo un metodo per generare sequenze di vedute urbane (Streetscapes) attraverso una scena sintetizzata in tempo reale su scala cittadina. La nostra generazione è condizionata da input linguistici (ad esempio, nome della città, condizioni meteorologiche), nonché da una mappa/layout sottostante che ospita la traiettoria desiderata. Rispetto ai modelli recenti per la generazione di video o la sintesi di viste 3D, il nostro metodo può scalare a traiettorie della fotocamera molto più lunghe, che coprono diversi isolati cittadini, mantenendo qualità visiva e coerenza. Per raggiungere questo obiettivo, ci basiamo su lavori recenti sulla diffusione video, utilizzati all'interno di un framework autoregressivo che può facilmente scalare a sequenze lunghe. In particolare, introduciamo un nuovo metodo di interpolazione temporale che impedisce al nostro approccio autoregressivo di discostarsi dalla distribuzione di immagini urbane realistiche. Addestriamo il nostro sistema Streetscapes su una fonte convincente di dati: immagini geolocalizzate da Google Street View, insieme a dati contestuali della mappa, che consentono agli utenti di generare viste cittadine condizionate su qualsiasi layout urbano desiderato, con pose della fotocamera controllabili. Per ulteriori risultati, consultate la pagina del nostro progetto all'indirizzo https://boyangdeng.com/streetscapes.
English
We present a method for generating Streetscapes-long sequences of views
through an on-the-fly synthesized city-scale scene. Our generation is
conditioned by language input (e.g., city name, weather), as well as an
underlying map/layout hosting the desired trajectory. Compared to recent models
for video generation or 3D view synthesis, our method can scale to much
longer-range camera trajectories, spanning several city blocks, while
maintaining visual quality and consistency. To achieve this goal, we build on
recent work on video diffusion, used within an autoregressive framework that
can easily scale to long sequences. In particular, we introduce a new temporal
imputation method that prevents our autoregressive approach from drifting from
the distribution of realistic city imagery. We train our Streetscapes system on
a compelling source of data-posed imagery from Google Street View, along with
contextual map data-which allows users to generate city views conditioned on
any desired city layout, with controllable camera poses. Please see more
results at our project page at https://boyangdeng.com/streetscapes.