ChatPaper.aiChatPaper

Jurassic World Remake: Reviviendo fósiles antiguos mediante traducción imagen a imagen de largo alcance con cero disparos

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

August 14, 2023
Autores: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI

Resumen

Con un profundo entendimiento del dominio objetivo a partir del lenguaje natural, obtenemos resultados prometedores al realizar traducciones a través de grandes brechas de dominio y devolver esqueletos a la vida. En este trabajo, utilizamos modelos de difusión latente guiados por texto para la traducción de imagen a imagen (I2I) en modo zero-shot a través de grandes brechas de dominio (longI2I), donde se necesita generar grandes cantidades de nuevas características visuales y nueva geometría para ingresar al dominio objetivo. La capacidad de realizar traducciones a través de grandes brechas de dominio tiene una amplia variedad de aplicaciones en el mundo real, como en criminología, astrología, conservación ambiental y paleontología. En este trabajo, introducimos una nueva tarea llamada Skull2Animal para traducir entre cráneos y animales vivos. En esta tarea, encontramos que las Redes Generativas Adversariales (GANs) no guiadas no son capaces de realizar traducciones a través de grandes brechas de dominio. En lugar de estos métodos tradicionales de I2I, exploramos el uso de modelos de difusión guiada y edición de imágenes, y presentamos un nuevo modelo de referencia, Revive-2I, capaz de realizar I2I en modo zero-shot mediante la difusión latente guiada por texto. Descubrimos que la guía es necesaria para longI2I porque, para salvar la gran brecha de dominio, se requiere conocimiento previo sobre el dominio objetivo. Además, encontramos que el uso de prompts proporciona la mejor y más escalable información sobre el dominio objetivo, ya que los modelos de difusión guiados por clasificadores requieren reentrenamiento para casos de uso específicos y carecen de restricciones más fuertes sobre el dominio objetivo debido a la amplia variedad de imágenes en las que se entrenan.
English
With a strong understanding of the target domain from natural language, we produce promising results in translating across large domain gaps and bringing skeletons back to life. In this work, we use text-guided latent diffusion models for zero-shot image-to-image translation (I2I) across large domain gaps (longI2I), where large amounts of new visual features and new geometry need to be generated to enter the target domain. Being able to perform translations across large domain gaps has a wide variety of real-world applications in criminology, astrology, environmental conservation, and paleontology. In this work, we introduce a new task Skull2Animal for translating between skulls and living animals. On this task, we find that unguided Generative Adversarial Networks (GANs) are not capable of translating across large domain gaps. Instead of these traditional I2I methods, we explore the use of guided diffusion and image editing models and provide a new benchmark model, Revive-2I, capable of performing zero-shot I2I via text-prompting latent diffusion models. We find that guidance is necessary for longI2I because, to bridge the large domain gap, prior knowledge about the target domain is needed. In addition, we find that prompting provides the best and most scalable information about the target domain as classifier-guided diffusion models require retraining for specific use cases and lack stronger constraints on the target domain because of the wide variety of images they are trained on.
PDF71December 15, 2024