Poderes Gerativos de Dez

Resumo

Apresentamos um método que utiliza um modelo de texto para imagem para gerar conteúdo consistente em múltiplas escalas de imagem, permitindo zooms semânticos extremos em uma cena, por exemplo, variando de uma visão panorâmica de uma floresta até um close macro de um inseto pousado em um dos galhos da árvore. Isso é alcançado por meio de uma abordagem conjunta de amostragem de difusão em múltiplas escalas, que promove a consistência entre diferentes escalas enquanto preserva a integridade de cada processo de amostragem individual. Como cada escala gerada é guiada por um prompt de texto diferente, nosso método permite níveis de zoom mais profundos do que os métodos tradicionais de super-resolução, que podem ter dificuldade em criar nova estrutura contextual em escalas drasticamente diferentes. Comparamos nosso método qualitativamente com técnicas alternativas em super-resolução de imagem e expansão de cena, e demonstramos que nosso método é mais eficaz na geração de conteúdo consistente em múltiplas escalas.

English

We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.

Poderes Gerativos de Dez

Generative Powers of Ten

Resumo

Support