ジュラシック・ワールド・リメイク:ゼロショット長尺画像間変換による古代化石の復元
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation
August 14, 2023
著者: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI
要旨
自然言語から対象ドメインを深く理解することで、大規模なドメインギャップを越えた翻訳や、骨格から生物を復元する有望な結果を生み出しています。本研究では、テキスト誘導型潜在拡散モデルを用いて、大規模なドメインギャップを越えたゼロショット画像間翻訳(longI2I)を行います。ここでは、対象ドメインに移行するために大量の新しい視覚的特徴と幾何学を生成する必要があります。大規模なドメインギャップを越えた翻訳が可能であることは、犯罪学、占星術、環境保護、古生物学など、現実世界での多様な応用が期待されます。本研究では、頭蓋骨と生きた動物の間の翻訳を行う新しいタスク「Skull2Animal」を導入します。このタスクにおいて、非誘導型の生成的敵対ネットワーク(GAN)は大規模なドメインギャップを越えた翻訳ができないことがわかりました。従来のI2I手法の代わりに、誘導型拡散モデルと画像編集モデルの使用を探求し、テキストプロンプトによる潜在拡散モデルを用いてゼロショットI2Iを実行可能な新しいベンチマークモデル「Revive-2I」を提供します。大規模なドメインギャップを埋めるためには、対象ドメインに関する事前知識が必要であるため、longI2Iにおいて誘導が不可欠であることがわかりました。さらに、分類器誘導型拡散モデルは特定の使用例に対して再学習が必要であり、訓練された画像の多様性のために対象ドメインに対する強い制約が欠けているのに対し、プロンプトが対象ドメインに関する最良で最もスケーラブルな情報を提供することがわかりました。
English
With a strong understanding of the target domain from natural language, we
produce promising results in translating across large domain gaps and bringing
skeletons back to life. In this work, we use text-guided latent diffusion
models for zero-shot image-to-image translation (I2I) across large domain gaps
(longI2I), where large amounts of new visual features and new geometry need to
be generated to enter the target domain. Being able to perform translations
across large domain gaps has a wide variety of real-world applications in
criminology, astrology, environmental conservation, and paleontology. In this
work, we introduce a new task Skull2Animal for translating between skulls and
living animals. On this task, we find that unguided Generative Adversarial
Networks (GANs) are not capable of translating across large domain gaps.
Instead of these traditional I2I methods, we explore the use of guided
diffusion and image editing models and provide a new benchmark model,
Revive-2I, capable of performing zero-shot I2I via text-prompting latent
diffusion models. We find that guidance is necessary for longI2I because, to
bridge the large domain gap, prior knowledge about the target domain is needed.
In addition, we find that prompting provides the best and most scalable
information about the target domain as classifier-guided diffusion models
require retraining for specific use cases and lack stronger constraints on the
target domain because of the wide variety of images they are trained on.