ChatPaper.aiChatPaper

Jurassic World Remake: Wiederbelebung antiker Fossilien durch Zero-Shot Long Image-to-Image Translation

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

August 14, 2023
Autoren: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI

Zusammenfassung

Mit einem fundierten Verständnis der Zieldomäne aus natürlicher Sprache erzielen wir vielversprechende Ergebnisse bei der Übersetzung über große Domänenlücken hinweg und bringen Skelette wieder zum Leben. In dieser Arbeit verwenden wir textgesteuerte latente Diffusionsmodelle für Zero-Shot Bild-zu-Bild-Übersetzung (I2I) über große Domänenlücken (longI2I), bei denen große Mengen neuer visueller Merkmale und neuer Geometrie generiert werden müssen, um die Zieldomäne zu erreichen. Die Fähigkeit, Übersetzungen über große Domänenlücken hinweg durchzuführen, hat eine Vielzahl von Anwendungen in der Kriminologie, Astrologie, Umweltforschung und Paläontologie. In dieser Arbeit führen wir eine neue Aufgabe, Skull2Animal, ein, bei der zwischen Schädeln und lebenden Tieren übersetzt wird. Bei dieser Aufgabe stellen wir fest, dass ungesteuerte Generative Adversarial Networks (GANs) nicht in der Lage sind, über große Domänenlücken hinweg zu übersetzen. Anstelle dieser traditionellen I2I-Methoden untersuchen wir den Einsatz von gesteuerten Diffusions- und Bildbearbeitungsmodellen und stellen ein neues Benchmark-Modell, Revive-2I, vor, das in der Lage ist, Zero-Shot I2I über Text-Prompting latenter Diffusionsmodelle durchzuführen. Wir stellen fest, dass Steuerung für longI2I notwendig ist, da zur Überbrückung der großen Domänenlücke Vorwissen über die Zieldomäne benötigt wird. Darüber hinaus stellen wir fest, dass Prompting die beste und skalierbarste Information über die Zieldomäne liefert, da klassifikatorgesteuerte Diffusionsmodelle für spezifische Anwendungsfälle neu trainiert werden müssen und aufgrund der Vielzahl der Bilder, auf denen sie trainiert werden, weniger starke Einschränkungen für die Zieldomäne aufweisen.
English
With a strong understanding of the target domain from natural language, we produce promising results in translating across large domain gaps and bringing skeletons back to life. In this work, we use text-guided latent diffusion models for zero-shot image-to-image translation (I2I) across large domain gaps (longI2I), where large amounts of new visual features and new geometry need to be generated to enter the target domain. Being able to perform translations across large domain gaps has a wide variety of real-world applications in criminology, astrology, environmental conservation, and paleontology. In this work, we introduce a new task Skull2Animal for translating between skulls and living animals. On this task, we find that unguided Generative Adversarial Networks (GANs) are not capable of translating across large domain gaps. Instead of these traditional I2I methods, we explore the use of guided diffusion and image editing models and provide a new benchmark model, Revive-2I, capable of performing zero-shot I2I via text-prompting latent diffusion models. We find that guidance is necessary for longI2I because, to bridge the large domain gap, prior knowledge about the target domain is needed. In addition, we find that prompting provides the best and most scalable information about the target domain as classifier-guided diffusion models require retraining for specific use cases and lack stronger constraints on the target domain because of the wide variety of images they are trained on.
PDF71December 15, 2024