ChatPaper.aiChatPaper

OminiControl: 확산 트랜스포머를 위한 최소하고 범용적인 제어

OminiControl: Minimal and Universal Control for Diffusion Transformer

November 22, 2024
저자: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI

초록

본 논문에서는 이미지 조건을 사전 훈련된 확산 트랜스포머(Diffusion Transformer, DiT) 모델에 통합하는 매우 다재다능하고 매개변수 효율적인 프레임워크인 OminiControl을 소개합니다. OminiControl의 핵심은 매개변수 재사용 메커니즘을 활용하여 DiT가 이미지 조건을 강력한 백본으로 사용하고 유연한 다중 모달 어텐션 프로세서로 처리할 수 있도록 하는 것입니다. 기존 방법과 달리 OminiControl은 (1) 약 0.1%의 추가 매개변수만 사용하여 주입된 이미지 조건을 효과적이고 효율적으로 통합하며, (2) 주체 주도 생성 및 가장자리, 깊이 등과 같은 공간적으로 정렬된 조건을 포함한 다양한 이미지 조건 작업을 통합적으로 다룹니다. 놀랍게도 이러한 기능들은 DiT 자체에 의해 생성된 이미지로 학습하여 얻어지며, 이는 특히 주체 주도 생성에 유리합니다. 포괄적인 평가 결과, OminiControl은 주체 주도 및 공간적으로 정렬된 조건부 생성에서 기존 UNet 기반 및 DiT 적응 모델을 능가함을 입증합니다. 게다가, 저희는 훈련 데이터셋 Subjects200K를 공개하며, 이는 20만 개 이상의 동일한 정체성을 가진 이미지의 다양한 컬렉션으로, 주체 일관성 있는 생성 연구를 발전시키기 위한 효율적인 데이터 합성 파이프라인을 함께 제공합니다.
English
In this paper, we introduce OminiControl, a highly versatile and parameter-efficient framework that integrates image conditions into pre-trained Diffusion Transformer (DiT) models. At its core, OminiControl leverages a parameter reuse mechanism, enabling the DiT to encode image conditions using itself as a powerful backbone and process them with its flexible multi-modal attention processors. Unlike existing methods, which rely heavily on additional encoder modules with complex architectures, OminiControl (1) effectively and efficiently incorporates injected image conditions with only ~0.1% additional parameters, and (2) addresses a wide range of image conditioning tasks in a unified manner, including subject-driven generation and spatially-aligned conditions such as edges, depth, and more. Remarkably, these capabilities are achieved by training on images generated by the DiT itself, which is particularly beneficial for subject-driven generation. Extensive evaluations demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted models in both subject-driven and spatially-aligned conditional generation. Additionally, we release our training dataset, Subjects200K, a diverse collection of over 200,000 identity-consistent images, along with an efficient data synthesis pipeline to advance research in subject-consistent generation.

Summary

AI-Generated Summary

PDF6010November 25, 2024