Stadsgezichten: Grootschalige consistente straatbeeldgeneratie met behulp van autoregressieve videodiffusie

Samenvatting

We presenteren een methode voor het genereren van Streetscapes-lange reeksen beelden door een ter plekke gesynthetiseerde stedelijke omgeving op stadsniveau. Onze generatie wordt bepaald door taalinput (bijv. stadsnaam, weer), evenals een onderliggende kaart/layout die de gewenste trajecten bevat. In vergelijking met recente modellen voor videogeneratie of 3D-beeldsynthese, kan onze methode op veel langere cameratrajecten worden toegepast, die meerdere stadsblokken beslaan, terwijl de visuele kwaliteit en consistentie behouden blijven. Om dit doel te bereiken, bouwen we voort op recent werk over videodiffusie, gebruikt binnen een autoregressief framework dat eenvoudig kan worden opgeschaald naar lange sequenties. In het bijzonder introduceren we een nieuwe temporele imputatiemethode die voorkomt dat onze autoregressieve aanpak afdrijft van de distributie van realistische stadsbeelden. We trainen ons Streetscapes-systeem op een overtuigende bron van gepositioneerde beelden van Google Street View, samen met contextuele kaartgegevens, waardoor gebruikers stadsbeelden kunnen genereren die zijn afgestemd op elke gewenste stadslayout, met controleerbare cameraposities. Bekijk meer resultaten op onze projectpagina op https://boyangdeng.com/streetscapes.

English

We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.

Stadsgezichten: Grootschalige consistente straatbeeldgeneratie met behulp van autoregressieve videodiffusie

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Samenvatting

Support