Jurassic World Remake: Oude Fossielen Tot Leven Brengen via Zero-Shot Lange Beeld-naar-Beeld Vertaling

Samenvatting

Met een diepgaand begrip van het doeldomein vanuit natuurlijke taal, leveren we veelbelovende resultaten op bij het vertalen over grote domeinkloven en brengen we skeletten weer tot leven. In dit werk gebruiken we tekstgestuurde latente diffusiemodellen voor zero-shot beeld-naar-beeld vertaling (I2I) over grote domeinkloven (longI2I), waarbij grote hoeveelheden nieuwe visuele kenmerken en nieuwe geometrie gegenereerd moeten worden om het doeldomein te betreden. Het kunnen uitvoeren van vertalingen over grote domeinkloven heeft een breed scala aan praktische toepassingen in de criminologie, astrologie, milieubescherming en paleontologie. In dit werk introduceren we een nieuwe taak, Skull2Animal, voor het vertalen tussen schedels en levende dieren. Bij deze taak ontdekken we dat ongestuurde Generative Adversarial Networks (GANs) niet in staat zijn om over grote domeinkloven te vertalen. In plaats van deze traditionele I2I-methoden, onderzoeken we het gebruik van gestuurde diffusie- en beeldbewerkingsmodellen en presenteren we een nieuw benchmarkmodel, Revive-2I, dat in staat is om zero-shot I2I uit te voeren via tekstgestuurde latente diffusiemodellen. We ontdekken dat sturing noodzakelijk is voor longI2I omdat, om de grote domeinkloof te overbruggen, voorkennis over het doeldomein nodig is. Daarnaast vinden we dat prompting de beste en meest schaalbare informatie over het doeldomein biedt, aangezien classifier-gestuurde diffusiemodellen hertraining vereisen voor specifieke use cases en sterkere beperkingen aan het doeldomein ontberen vanwege de grote verscheidenheid aan afbeeldingen waarop ze getraind zijn.

English

With a strong understanding of the target domain from natural language, we produce promising results in translating across large domain gaps and bringing skeletons back to life. In this work, we use text-guided latent diffusion models for zero-shot image-to-image translation (I2I) across large domain gaps (longI2I), where large amounts of new visual features and new geometry need to be generated to enter the target domain. Being able to perform translations across large domain gaps has a wide variety of real-world applications in criminology, astrology, environmental conservation, and paleontology. In this work, we introduce a new task Skull2Animal for translating between skulls and living animals. On this task, we find that unguided Generative Adversarial Networks (GANs) are not capable of translating across large domain gaps. Instead of these traditional I2I methods, we explore the use of guided diffusion and image editing models and provide a new benchmark model, Revive-2I, capable of performing zero-shot I2I via text-prompting latent diffusion models. We find that guidance is necessary for longI2I because, to bridge the large domain gap, prior knowledge about the target domain is needed. In addition, we find that prompting provides the best and most scalable information about the target domain as classifier-guided diffusion models require retraining for specific use cases and lack stronger constraints on the target domain because of the wide variety of images they are trained on.

Jurassic World Remake: Oude Fossielen Tot Leven Brengen via Zero-Shot Lange Beeld-naar-Beeld Vertaling

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

Samenvatting

Support