ChatPaper.aiChatPaper

Generative Kräfte von Zehn

Generative Powers of Ten

December 4, 2023
Autoren: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI

Zusammenfassung

Wir stellen eine Methode vor, die ein Text-zu-Bild-Modell verwendet, um konsistente Inhalte über mehrere Bildskalen hinweg zu erzeugen, wodurch extreme semantische Zooms in eine Szene ermöglicht werden, z. B. von einer Weitwinkel-Landschaftsansicht eines Waldes bis hin zu einer Makroaufnahme eines Insekts, das auf einem der Baumzweige sitzt. Dies erreichen wir durch einen gemeinsamen Multi-Skalen-Diffusionssampling-Ansatz, der Konsistenz über verschiedene Skalen hinweg fördert, während die Integrität jedes einzelnen Sampling-Prozesses erhalten bleibt. Da jede erzeugte Skala durch einen anderen Text-Prompt gesteuert wird, ermöglicht unsere Methode tiefere Zoomstufen als traditionelle Super-Resolution-Methoden, die Schwierigkeiten haben könnten, neue kontextuelle Strukturen bei stark unterschiedlichen Skalen zu erzeugen. Wir vergleichen unsere Methode qualitativ mit alternativen Techniken in der Bildsuperauflösung und dem Outpainting und zeigen, dass unsere Methode am effektivsten konsistente Inhalte über mehrere Skalen hinweg erzeugt.
English
We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
PDF81December 15, 2024