«Парк Юрского периода: Ремейк»: Возрождение древних окаменелостей с помощью метода нулевого сдвига в длинном изображении-к-изображению
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation
August 14, 2023
Авторы: Alexander Martin, Haitian Zheng, Jie An, Jiebo Luo
cs.AI
Аннотация
Обладая глубоким пониманием целевой области на основе естественного языка, мы добиваемся перспективных результатов в переводе через значительные междоменные разрывы и восстановлении скелетов к жизни. В данной работе мы используем текстово-управляемые латентные диффузионные модели для выполнения задачи zero-shot перевода изображения в изображение (I2I) через большие междоменные разрывы (longI2I), где требуется генерация значительного количества новых визуальных признаков и геометрии для перехода в целевую область. Возможность выполнения переводов через большие междоменные разрывы имеет широкий спектр практических применений в криминалистике, астрологии, охране окружающей среды и палеонтологии. В данной работе мы представляем новую задачу Skull2Animal для перевода между черепами и живыми животными. В рамках этой задачи мы обнаруживаем, что неуправляемые генеративно-состязательные сети (GAN) не способны выполнять перевод через большие междоменные разрывы. Вместо традиционных методов I2I мы исследуем использование управляемых диффузионных моделей и моделей редактирования изображений, а также предлагаем новую эталонную модель Revive-2I, способную выполнять zero-shot I2I с использованием текстовых подсказок в латентных диффузионных моделях. Мы выясняем, что управление необходимо для longI2I, поскольку для преодоления значительного междоменного разрыва требуется предварительное знание о целевой области. Кроме того, мы обнаруживаем, что использование подсказок предоставляет наиболее качественную и масштабируемую информацию о целевой области, так как диффузионные модели с управлением через классификаторы требуют переобучения для конкретных случаев использования и не имеют строгих ограничений на целевую область из-за широкого разнообразия изображений, на которых они обучаются.
English
With a strong understanding of the target domain from natural language, we
produce promising results in translating across large domain gaps and bringing
skeletons back to life. In this work, we use text-guided latent diffusion
models for zero-shot image-to-image translation (I2I) across large domain gaps
(longI2I), where large amounts of new visual features and new geometry need to
be generated to enter the target domain. Being able to perform translations
across large domain gaps has a wide variety of real-world applications in
criminology, astrology, environmental conservation, and paleontology. In this
work, we introduce a new task Skull2Animal for translating between skulls and
living animals. On this task, we find that unguided Generative Adversarial
Networks (GANs) are not capable of translating across large domain gaps.
Instead of these traditional I2I methods, we explore the use of guided
diffusion and image editing models and provide a new benchmark model,
Revive-2I, capable of performing zero-shot I2I via text-prompting latent
diffusion models. We find that guidance is necessary for longI2I because, to
bridge the large domain gap, prior knowledge about the target domain is needed.
In addition, we find that prompting provides the best and most scalable
information about the target domain as classifier-guided diffusion models
require retraining for specific use cases and lack stronger constraints on the
target domain because of the wide variety of images they are trained on.