Semantica: 이미지 조건부 확산 모델의 적응형 프레임워크
Semantica: An Adaptable Image-Conditioned Diffusion Model
May 23, 2024
저자: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI
초록
이미지 생성 모델을 파인튜닝 없이 다양한 데이터셋에 적응시키는 과제를 연구합니다. 이를 위해, 조건 이미지의 의미를 기반으로 이미지를 생성할 수 있는 이미지 조건부 확산 모델인 Semantica를 소개합니다. Semantica는 웹 규모의 이미지 쌍으로만 학습되며, 웹페이지에서 무작위로 선택된 이미지를 조건 입력으로 받아 동일한 웹페이지의 또 다른 무작위 이미지를 모델링합니다. 우리의 실험은 사전 학습된 이미지 인코더의 표현력과 고품질 이미지 생성을 위한 의미 기반 데이터 필터링의 필요성을 강조합니다. 일단 학습이 완료되면, 단순히 해당 데이터셋의 이미지를 입력으로 사용하여 새로운 데이터셋에서 적응적으로 이미지를 생성할 수 있습니다. 우리는 Semantica의 전이 특성을 ImageNet, LSUN Churches, LSUN Bedroom 및 SUN397 데이터셋에서 연구합니다.
English
We investigate the task of adapting image generative models to different
datasets without finetuneing. To this end, we introduce Semantica, an
image-conditioned diffusion model capable of generating images based on the
semantics of a conditioning image. Semantica is trained exclusively on
web-scale image pairs, that is it receives a random image from a webpage as
conditional input and models another random image from the same webpage. Our
experiments highlight the expressivity of pretrained image encoders and
necessity of semantic-based data filtering in achieving high-quality image
generation. Once trained, it can adaptively generate new images from a dataset
by simply using images from that dataset as input. We study the transfer
properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.Summary
AI-Generated Summary