ChatPaper.aiChatPaper

Poteri Generativi di Dieci

Generative Powers of Ten

December 4, 2023
Autori: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI

Abstract

Presentiamo un metodo che utilizza un modello text-to-image per generare contenuti coerenti su più scale di immagine, consentendo zoom semantici estremi all'interno di una scena, ad esempio passando da una vista panoramica di un paesaggio forestale a un'immagine macro di un insetto posato su uno dei rami degli alberi. Raggiungiamo questo obiettivo attraverso un approccio di campionamento diffusion congiunto su più scale che promuove la coerenza tra le diverse scale preservando l'integrità di ciascun processo di campionamento individuale. Poiché ogni scala generata è guidata da un prompt testuale diverso, il nostro metodo consente livelli di zoom più profondi rispetto ai tradizionali metodi di super-risoluzione, che possono avere difficoltà a creare nuova struttura contestuale su scale molto diverse. Confrontiamo qualitativamente il nostro metodo con tecniche alternative nella super-risoluzione e nell'outpainting di immagini, dimostrando che il nostro approccio è più efficace nella generazione di contenuti coerenti su più scale.
English
We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
PDF81February 7, 2026