Jurassic World Remake: Revivendo Fósseis Antigos através da Tradução de Imagem para Imagem de Longo Alcance com Zero-Shot
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation
August 14, 2023
Autores: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI
Resumo
Com um profundo entendimento do domínio alvo a partir da linguagem natural, produzimos resultados promissores na tradução através de grandes lacunas de domínio e na reconstrução de esqueletos. Neste trabalho, utilizamos modelos de difusão latente guiados por texto para tradução zero-shot de imagem para imagem (I2I) através de grandes lacunas de domínio (longI2I), onde grandes quantidades de novas características visuais e nova geometria precisam ser geradas para entrar no domínio alvo. A capacidade de realizar traduções através de grandes lacunas de domínio tem uma ampla variedade de aplicações no mundo real em criminologia, astrologia, conservação ambiental e paleontologia. Neste trabalho, introduzimos uma nova tarefa, Skull2Animal, para tradução entre crânios e animais vivos. Nesta tarefa, descobrimos que Redes Generativas Adversariais (GANs) não guiadas não são capazes de traduzir através de grandes lacunas de domínio. Em vez desses métodos tradicionais de I2I, exploramos o uso de modelos de difusão guiada e edição de imagens e fornecemos um novo modelo de referência, Revive-2I, capaz de realizar I2I zero-shot por meio de modelos de difusão latente com prompts de texto. Descobrimos que a orientação é necessária para longI2I porque, para superar a grande lacuna de domínio, é necessário conhecimento prévio sobre o domínio alvo. Além disso, descobrimos que o uso de prompts fornece a melhor e mais escalável informação sobre o domínio alvo, já que modelos de difusão guiados por classificador exigem retreinamento para casos de uso específicos e carecem de restrições mais fortes sobre o domínio alvo devido à grande variedade de imagens em que são treinados.
English
With a strong understanding of the target domain from natural language, we
produce promising results in translating across large domain gaps and bringing
skeletons back to life. In this work, we use text-guided latent diffusion
models for zero-shot image-to-image translation (I2I) across large domain gaps
(longI2I), where large amounts of new visual features and new geometry need to
be generated to enter the target domain. Being able to perform translations
across large domain gaps has a wide variety of real-world applications in
criminology, astrology, environmental conservation, and paleontology. In this
work, we introduce a new task Skull2Animal for translating between skulls and
living animals. On this task, we find that unguided Generative Adversarial
Networks (GANs) are not capable of translating across large domain gaps.
Instead of these traditional I2I methods, we explore the use of guided
diffusion and image editing models and provide a new benchmark model,
Revive-2I, capable of performing zero-shot I2I via text-prompting latent
diffusion models. We find that guidance is necessary for longI2I because, to
bridge the large domain gap, prior knowledge about the target domain is needed.
In addition, we find that prompting provides the best and most scalable
information about the target domain as classifier-guided diffusion models
require retraining for specific use cases and lack stronger constraints on the
target domain because of the wide variety of images they are trained on.