Jurassic World Remake: Riportare in Vita Antichi Fossili attraverso la Traduzione Zero-Shot da Immagine a Immagine a Lungo Raggio
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation
August 14, 2023
Autori: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI
Abstract
Con una solida comprensione del dominio target derivata dal linguaggio naturale, otteniamo risultati promettenti nella traduzione attraverso ampi divari di dominio e nel riportare scheletri alla vita. In questo lavoro, utilizziamo modelli di diffusione latente guidati da testo per la traduzione zero-shot da immagine a immagine (I2I) attraverso ampi divari di dominio (longI2I), dove è necessario generare grandi quantità di nuove caratteristiche visive e nuova geometria per entrare nel dominio target. La capacità di eseguire traduzioni attraverso ampi divari di dominio ha una vasta gamma di applicazioni nel mondo reale, tra cui criminologia, astrologia, conservazione ambientale e paleontologia. In questo lavoro, introduciamo un nuovo task chiamato Skull2Animal per la traduzione tra teschi e animali viventi. Su questo task, scopriamo che le Generative Adversarial Networks (GAN) non guidate non sono in grado di tradurre attraverso ampi divari di dominio. Invece di questi tradizionali metodi I2I, esploriamo l'uso di modelli di diffusione guidata e di editing delle immagini e forniamo un nuovo modello di riferimento, Revive-2I, capace di eseguire I2I zero-shot tramite modelli di diffusione latente guidati da prompt testuali. Scopriamo che la guida è necessaria per longI2I perché, per colmare il grande divario di dominio, è necessaria una conoscenza preliminare del dominio target. Inoltre, scopriamo che il prompting fornisce le informazioni migliori e più scalabili sul dominio target, poiché i modelli di diffusione guidati da classificatore richiedono un riaddestramento per casi d'uso specifici e mancano di vincoli più forti sul dominio target a causa della vasta gamma di immagini su cui sono addestrati.
English
With a strong understanding of the target domain from natural language, we
produce promising results in translating across large domain gaps and bringing
skeletons back to life. In this work, we use text-guided latent diffusion
models for zero-shot image-to-image translation (I2I) across large domain gaps
(longI2I), where large amounts of new visual features and new geometry need to
be generated to enter the target domain. Being able to perform translations
across large domain gaps has a wide variety of real-world applications in
criminology, astrology, environmental conservation, and paleontology. In this
work, we introduce a new task Skull2Animal for translating between skulls and
living animals. On this task, we find that unguided Generative Adversarial
Networks (GANs) are not capable of translating across large domain gaps.
Instead of these traditional I2I methods, we explore the use of guided
diffusion and image editing models and provide a new benchmark model,
Revive-2I, capable of performing zero-shot I2I via text-prompting latent
diffusion models. We find that guidance is necessary for longI2I because, to
bridge the large domain gap, prior knowledge about the target domain is needed.
In addition, we find that prompting provides the best and most scalable
information about the target domain as classifier-guided diffusion models
require retraining for specific use cases and lack stronger constraints on the
target domain because of the wide variety of images they are trained on.