ChatPaper.aiChatPaper

Paisajes urbanos: Generación a gran escala de vistas de calles consistentes utilizando Difusión de Video Autoregresivo.

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

July 18, 2024
Autores: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein
cs.AI

Resumen

Presentamos un método para generar Paisajes Urbanos: secuencias largas de vistas a través de una escena a escala de ciudad sintetizada sobre la marcha. Nuestra generación está condicionada por la entrada de lenguaje (por ejemplo, nombre de la ciudad, clima), así como un mapa/diseño subyacente que alberga la trayectoria deseada. En comparación con modelos recientes para generación de video o síntesis de vistas 3D, nuestro método puede escalar a trayectorias de cámara de mucho mayor alcance, abarcando varios bloques de la ciudad, manteniendo la calidad visual y la consistencia. Para lograr este objetivo, nos basamos en trabajos recientes sobre difusión de video, utilizados dentro de un marco autoregresivo que puede escalar fácilmente a secuencias largas. En particular, introducimos un nuevo método de imputación temporal que evita que nuestro enfoque autoregresivo se desvíe de la distribución de imágenes realistas de la ciudad. Entrenamos nuestro sistema Streetscapes en una fuente convincente de datos: imágenes de Google Street View, junto con datos de mapas contextuales, lo que permite a los usuarios generar vistas de la ciudad condicionadas a cualquier diseño de ciudad deseado, con poses de cámara controlables. Para ver más resultados, visite nuestra página de proyecto en https://boyangdeng.com/streetscapes.
English
We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.

Summary

AI-Generated Summary

PDF182November 28, 2024