Poderes Gerativos de Dez
Generative Powers of Ten
December 4, 2023
Autores: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI
Resumo
Apresentamos um método que utiliza um modelo de texto para imagem para gerar conteúdo consistente em múltiplas escalas de imagem, permitindo zooms semânticos extremos em uma cena, por exemplo, variando de uma visão panorâmica de uma floresta até um close macro de um inseto pousado em um dos galhos da árvore. Isso é alcançado por meio de uma abordagem conjunta de amostragem de difusão em múltiplas escalas, que promove a consistência entre diferentes escalas enquanto preserva a integridade de cada processo de amostragem individual. Como cada escala gerada é guiada por um prompt de texto diferente, nosso método permite níveis de zoom mais profundos do que os métodos tradicionais de super-resolução, que podem ter dificuldade em criar nova estrutura contextual em escalas drasticamente diferentes. Comparamos nosso método qualitativamente com técnicas alternativas em super-resolução de imagem e expansão de cena, e demonstramos que nosso método é mais eficaz na geração de conteúdo consistente em múltiplas escalas.
English
We present a method that uses a text-to-image model to generate consistent
content across multiple image scales, enabling extreme semantic zooms into a
scene, e.g., ranging from a wide-angle landscape view of a forest to a macro
shot of an insect sitting on one of the tree branches. We achieve this through
a joint multi-scale diffusion sampling approach that encourages consistency
across different scales while preserving the integrity of each individual
sampling process. Since each generated scale is guided by a different text
prompt, our method enables deeper levels of zoom than traditional
super-resolution methods that may struggle to create new contextual structure
at vastly different scales. We compare our method qualitatively with
alternative techniques in image super-resolution and outpainting, and show that
our method is most effective at generating consistent multi-scale content.