Stadsgezichten: Grootschalige consistente straatbeeldgeneratie met behulp van autoregressieve videodiffusie
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
July 18, 2024
Auteurs: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein
cs.AI
Samenvatting
We presenteren een methode voor het genereren van Streetscapes-lange reeksen beelden door een ter plekke gesynthetiseerde stedelijke omgeving op stadsniveau. Onze generatie wordt bepaald door taalinput (bijv. stadsnaam, weer), evenals een onderliggende kaart/layout die de gewenste trajecten bevat. In vergelijking met recente modellen voor videogeneratie of 3D-beeldsynthese, kan onze methode op veel langere cameratrajecten worden toegepast, die meerdere stadsblokken beslaan, terwijl de visuele kwaliteit en consistentie behouden blijven. Om dit doel te bereiken, bouwen we voort op recent werk over videodiffusie, gebruikt binnen een autoregressief framework dat eenvoudig kan worden opgeschaald naar lange sequenties. In het bijzonder introduceren we een nieuwe temporele imputatiemethode die voorkomt dat onze autoregressieve aanpak afdrijft van de distributie van realistische stadsbeelden. We trainen ons Streetscapes-systeem op een overtuigende bron van gepositioneerde beelden van Google Street View, samen met contextuele kaartgegevens, waardoor gebruikers stadsbeelden kunnen genereren die zijn afgestemd op elke gewenste stadslayout, met controleerbare cameraposities. Bekijk meer resultaten op onze projectpagina op https://boyangdeng.com/streetscapes.
English
We present a method for generating Streetscapes-long sequences of views
through an on-the-fly synthesized city-scale scene. Our generation is
conditioned by language input (e.g., city name, weather), as well as an
underlying map/layout hosting the desired trajectory. Compared to recent models
for video generation or 3D view synthesis, our method can scale to much
longer-range camera trajectories, spanning several city blocks, while
maintaining visual quality and consistency. To achieve this goal, we build on
recent work on video diffusion, used within an autoregressive framework that
can easily scale to long sequences. In particular, we introduce a new temporal
imputation method that prevents our autoregressive approach from drifting from
the distribution of realistic city imagery. We train our Streetscapes system on
a compelling source of data-posed imagery from Google Street View, along with
contextual map data-which allows users to generate city views conditioned on
any desired city layout, with controllable camera poses. Please see more
results at our project page at https://boyangdeng.com/streetscapes.