Pouvoirs Génératifs de Dix
Generative Powers of Ten
December 4, 2023
Auteurs: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI
Résumé
Nous présentons une méthode qui utilise un modèle texte-image pour générer un contenu cohérent à travers plusieurs échelles d'images, permettant des zooms sémantiques extrêmes dans une scène, par exemple, allant d'une vue panoramique d'une forêt à un plan macro d'un insecte posé sur l'une des branches d'arbre. Nous y parvenons grâce à une approche d'échantillonnage de diffusion multi-échelle conjointe qui favorise la cohérence entre les différentes échelles tout en préservant l'intégrité de chaque processus d'échantillonnage individuel. Comme chaque échelle générée est guidée par une invite textuelle différente, notre méthode permet des niveaux de zoom plus profonds que les méthodes traditionnelles de super-résolution, qui peuvent avoir du mal à créer une nouvelle structure contextuelle à des échelles très différentes. Nous comparons qualitativement notre méthode avec des techniques alternatives en super-résolution d'images et en extrapolation, et montrons que notre méthode est la plus efficace pour générer un contenu multi-échelle cohérent.
English
We present a method that uses a text-to-image model to generate consistent
content across multiple image scales, enabling extreme semantic zooms into a
scene, e.g., ranging from a wide-angle landscape view of a forest to a macro
shot of an insect sitting on one of the tree branches. We achieve this through
a joint multi-scale diffusion sampling approach that encourages consistency
across different scales while preserving the integrity of each individual
sampling process. Since each generated scale is guided by a different text
prompt, our method enables deeper levels of zoom than traditional
super-resolution methods that may struggle to create new contextual structure
at vastly different scales. We compare our method qualitatively with
alternative techniques in image super-resolution and outpainting, and show that
our method is most effective at generating consistent multi-scale content.