Subject-Diffusion: 테스트 시 미세 조정 없이 개방형 도메인에서 개인화된 텍스트-이미지 생성
Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning
July 21, 2023
저자: Jian Ma, Junhao Liang, Chen Chen, Haonan Lu
cs.AI
초록
최근 확산 모델을 이용한 개인화 이미지 생성 분야에서의 진전은 상당히 두드러졌습니다. 그러나 개방형 도메인 및 미세 조정이 필요 없는 개인화 이미지 생성 영역의 발전은 상대적으로 더디게 진행되고 있습니다. 본 논문에서는 테스트 시점의 미세 조정이 필요 없으며, 단일 참조 이미지만으로도 어떤 도메인에서든 단일 또는 다중 주체의 개인화된 이미지 생성을 지원하는 새로운 개방형 도메인 개인화 이미지 생성 모델인 Subject-Diffusion을 제안합니다. 먼저, 자동 데이터 라벨링 도구를 구축하고 LAION-Aesthetics 데이터셋을 활용하여 7,600만 개의 이미지와 해당 주체 탐지 바운딩 박스, 세그멘테이션 마스크, 텍스트 설명으로 구성된 대규모 데이터셋을 구축했습니다. 둘째, 주체 충실도와 일반화를 극대화하기 위해 대략적인 위치 정보와 세밀한 참조 이미지 제어를 통합하여 텍스트와 이미지 의미를 결합한 새로운 통합 프레임워크를 설계했습니다. 또한, 다중 주체 생성을 지원하기 위해 주의 제어 메커니즘을 도입했습니다. 광범위한 정성적 및 정량적 실험 결과는 우리의 방법이 단일, 다중, 그리고 인간 맞춤형 이미지 생성에서 다른 최첨단 프레임워크들을 능가함을 보여줍니다. 자세한 내용은 https://oppo-mente-lab.github.io/subject_diffusion/{프로젝트 페이지}를 참조하십시오.
English
Recent progress in personalized image generation using diffusion models has
been significant. However, development in the area of open-domain and
non-fine-tuning personalized image generation is proceeding rather slowly. In
this paper, we propose Subject-Diffusion, a novel open-domain personalized
image generation model that, in addition to not requiring test-time
fine-tuning, also only requires a single reference image to support
personalized generation of single- or multi-subject in any domain. Firstly, we
construct an automatic data labeling tool and use the LAION-Aesthetics dataset
to construct a large-scale dataset consisting of 76M images and their
corresponding subject detection bounding boxes, segmentation masks and text
descriptions. Secondly, we design a new unified framework that combines text
and image semantics by incorporating coarse location and fine-grained reference
image control to maximize subject fidelity and generalization. Furthermore, we
also adopt an attention control mechanism to support multi-subject generation.
Extensive qualitative and quantitative results demonstrate that our method
outperforms other SOTA frameworks in single, multiple, and human customized
image generation. Please refer to our
https://oppo-mente-lab.github.io/subject_diffusion/{project page}