生成的なパワーズ・オブ・テン
Generative Powers of Ten
December 4, 2023
著者: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski
cs.AI
要旨
本論文では、テキストから画像を生成するモデルを用いて、複数の画像スケールにわたって一貫性のあるコンテンツを生成する手法を提案します。これにより、広角の森林景観から、木の枝に止まる昆虫のマクロショットまで、極端な意味論的ズームを可能にします。この実現のために、異なるスケール間の一貫性を促進しつつ、個々のサンプリングプロセスの整合性を保つ、共同マルチスケール拡散サンプリングアプローチを採用しています。各生成スケールは異なるテキストプロンプトによってガイドされるため、従来の超解像手法では困難であった、大きく異なるスケールでの新たな文脈構造の生成を可能にします。本手法を、画像超解像やアウトペインティングの代替技術と定性的に比較し、一貫したマルチスケールコンテンツの生成において最も効果的であることを示します。
English
We present a method that uses a text-to-image model to generate consistent
content across multiple image scales, enabling extreme semantic zooms into a
scene, e.g., ranging from a wide-angle landscape view of a forest to a macro
shot of an insect sitting on one of the tree branches. We achieve this through
a joint multi-scale diffusion sampling approach that encourages consistency
across different scales while preserving the integrity of each individual
sampling process. Since each generated scale is guided by a different text
prompt, our method enables deeper levels of zoom than traditional
super-resolution methods that may struggle to create new contextual structure
at vastly different scales. We compare our method qualitatively with
alternative techniques in image super-resolution and outpainting, and show that
our method is most effective at generating consistent multi-scale content.