ChatPaper.aiChatPaper

Generatieve Machten van Tien

Generative Powers of Ten

December 4, 2023
Auteurs: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI

Samenvatting

We presenteren een methode die een tekst-naar-beeldmodel gebruikt om consistente inhoud te genereren over meerdere beeldschalen, waardoor extreme semantische zoomen in een scène mogelijk worden, bijvoorbeeld variërend van een breedhoekig landschapsbeeld van een bos tot een macro-opname van een insect dat op een van de takken zit. Dit bereiken we door middel van een gezamenlijke multi-schaal diffusie-steekproefbenadering die consistentie over verschillende schalen bevordert, terwijl de integriteit van elk individueel steekproefproces behouden blijft. Omdat elke gegenereerde schaal wordt geleid door een andere tekstprompt, maakt onze methode diepere zoomniveaus mogelijk dan traditionele superresolutiemethoden die moeite kunnen hebben om nieuwe contextuele structuren te creëren op sterk verschillende schalen. We vergelijken onze methode kwalitatief met alternatieve technieken in beeld-superresolutie en uitbreiding, en tonen aan dat onze methode het meest effectief is in het genereren van consistente multi-schaal inhoud.
English
We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
PDF81February 7, 2026