Generatieve Machten van Tien
Generative Powers of Ten
December 4, 2023
Auteurs: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI
Samenvatting
We presenteren een methode die een tekst-naar-beeldmodel gebruikt om consistente inhoud te genereren over meerdere beeldschalen, waardoor extreme semantische zoomen in een scène mogelijk worden, bijvoorbeeld variërend van een breedhoekig landschapsbeeld van een bos tot een macro-opname van een insect dat op een van de takken zit. Dit bereiken we door middel van een gezamenlijke multi-schaal diffusie-steekproefbenadering die consistentie over verschillende schalen bevordert, terwijl de integriteit van elk individueel steekproefproces behouden blijft. Omdat elke gegenereerde schaal wordt geleid door een andere tekstprompt, maakt onze methode diepere zoomniveaus mogelijk dan traditionele superresolutiemethoden die moeite kunnen hebben om nieuwe contextuele structuren te creëren op sterk verschillende schalen. We vergelijken onze methode kwalitatief met alternatieve technieken in beeld-superresolutie en uitbreiding, en tonen aan dat onze methode het meest effectief is in het genereren van consistente multi-schaal inhoud.
English
We present a method that uses a text-to-image model to generate consistent
content across multiple image scales, enabling extreme semantic zooms into a
scene, e.g., ranging from a wide-angle landscape view of a forest to a macro
shot of an insect sitting on one of the tree branches. We achieve this through
a joint multi-scale diffusion sampling approach that encourages consistency
across different scales while preserving the integrity of each individual
sampling process. Since each generated scale is guided by a different text
prompt, our method enables deeper levels of zoom than traditional
super-resolution methods that may struggle to create new contextual structure
at vastly different scales. We compare our method qualitatively with
alternative techniques in image super-resolution and outpainting, and show that
our method is most effective at generating consistent multi-scale content.