ChatPaper.aiChatPaper

Генеративные степени десяти

Generative Powers of Ten

December 4, 2023
Авторы: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI

Аннотация

Мы представляем метод, который использует модель преобразования текста в изображение для генерации согласованного контента на нескольких масштабах изображения, что позволяет осуществлять экстремальные семантические увеличения сцены, например, от широкоугольного вида лесного пейзажа до макросъемки насекомого, сидящего на одной из ветвей дерева. Мы достигаем этого с помощью совместного подхода к многоуровневой диффузионной выборке, который способствует согласованности между различными масштабами, сохраняя при этом целостность каждого отдельного процесса выборки. Поскольку каждый генерируемый масштаб направляется различным текстовым запросом, наш метод позволяет достигать более глубоких уровней увеличения, чем традиционные методы супер-разрешения, которые могут испытывать трудности с созданием новой контекстуальной структуры на значительно разных масштабах. Мы качественно сравниваем наш метод с альтернативными техниками в области супер-разрешения и расширения изображений и показываем, что наш метод наиболее эффективен для генерации согласованного многоуровневого контента.
English
We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
PDF81December 15, 2024