Poderes Generativos de Diez
Generative Powers of Ten
December 4, 2023
Autores: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI
Resumen
Presentamos un método que utiliza un modelo de texto a imagen para generar contenido consistente a través de múltiples escalas de imagen, permitiendo zooms semánticos extremos en una escena, por ejemplo, desde una vista panorámica de un bosque hasta un plano macro de un insecto posado en una de las ramas de los árboles. Logramos esto mediante un enfoque de muestreo de difusión multi-escala conjunta que fomenta la consistencia entre diferentes escalas mientras preserva la integridad de cada proceso de muestreo individual. Dado que cada escala generada está guiada por un prompt de texto diferente, nuestro método permite niveles de zoom más profundos que los métodos tradicionales de super-resolución, los cuales pueden tener dificultades para crear nueva estructura contextual en escalas muy diferentes. Comparamos cualitativamente nuestro método con técnicas alternativas en super-resolución de imágenes y outpaint, y demostramos que nuestro método es más efectivo para generar contenido multi-escala consistente.
English
We present a method that uses a text-to-image model to generate consistent
content across multiple image scales, enabling extreme semantic zooms into a
scene, e.g., ranging from a wide-angle landscape view of a forest to a macro
shot of an insect sitting on one of the tree branches. We achieve this through
a joint multi-scale diffusion sampling approach that encourages consistency
across different scales while preserving the integrity of each individual
sampling process. Since each generated scale is guided by a different text
prompt, our method enables deeper levels of zoom than traditional
super-resolution methods that may struggle to create new contextual structure
at vastly different scales. We compare our method qualitatively with
alternative techniques in image super-resolution and outpainting, and show that
our method is most effective at generating consistent multi-scale content.