ChatPaper.aiChatPaper

Jurassic World Remake : Redonner vie aux fossiles anciens grâce à la traduction d'image à image longue en zero-shot

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

August 14, 2023
Auteurs: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI

Résumé

Avec une compréhension approfondie du domaine cible à partir du langage naturel, nous obtenons des résultats prometteurs dans la traduction à travers de grands écarts de domaines et dans la revitalisation de squelettes. Dans ce travail, nous utilisons des modèles de diffusion latente guidés par le texte pour la traduction d'image à image (I2I) en zero-shot à travers de grands écarts de domaines (longI2I), où de grandes quantités de nouvelles caractéristiques visuelles et de nouvelles géométries doivent être générées pour entrer dans le domaine cible. La capacité à effectuer des traductions à travers de grands écarts de domaines a une variété d'applications pratiques dans des domaines tels que la criminologie, l'astrologie, la conservation de l'environnement et la paléontologie. Dans ce travail, nous introduisons une nouvelle tâche, Skull2Animal, pour la traduction entre des crânes et des animaux vivants. Sur cette tâche, nous constatons que les réseaux antagonistes génératifs (GANs) non guidés ne sont pas capables de traduire à travers de grands écarts de domaines. Au lieu de ces méthodes traditionnelles d'I2I, nous explorons l'utilisation de modèles de diffusion guidée et d'édition d'images et proposons un nouveau modèle de référence, Revive-2I, capable d'effectuer une I2I en zero-shot via des modèles de diffusion latente guidés par des prompts textuels. Nous constatons que le guidage est nécessaire pour le longI2I car, pour combler le grand écart de domaine, des connaissances préalables sur le domaine cible sont requises. De plus, nous constatons que le prompting fournit les informations les plus précises et les plus évolutives sur le domaine cible, car les modèles de diffusion guidés par classifieur nécessitent un réentraînement pour des cas d'utilisation spécifiques et manquent de contraintes plus fortes sur le domaine cible en raison de la grande variété d'images sur lesquelles ils sont entraînés.
English
With a strong understanding of the target domain from natural language, we produce promising results in translating across large domain gaps and bringing skeletons back to life. In this work, we use text-guided latent diffusion models for zero-shot image-to-image translation (I2I) across large domain gaps (longI2I), where large amounts of new visual features and new geometry need to be generated to enter the target domain. Being able to perform translations across large domain gaps has a wide variety of real-world applications in criminology, astrology, environmental conservation, and paleontology. In this work, we introduce a new task Skull2Animal for translating between skulls and living animals. On this task, we find that unguided Generative Adversarial Networks (GANs) are not capable of translating across large domain gaps. Instead of these traditional I2I methods, we explore the use of guided diffusion and image editing models and provide a new benchmark model, Revive-2I, capable of performing zero-shot I2I via text-prompting latent diffusion models. We find that guidance is necessary for longI2I because, to bridge the large domain gap, prior knowledge about the target domain is needed. In addition, we find that prompting provides the best and most scalable information about the target domain as classifier-guided diffusion models require retraining for specific use cases and lack stronger constraints on the target domain because of the wide variety of images they are trained on.
PDF71December 15, 2024