ControlNeXt: 강력하고 효율적인 이미지 및 비디오 생성을 위한 제어
ControlNeXt: Powerful and Efficient Control for Image and Video Generation
August 12, 2024
저자: Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia
cs.AI
초록
확산 모델은 이미지 및 비디오 생성에서 놀라운 강력함과 견고함을 입증해 왔습니다. 생성된 결과물을 보다 더 정밀하게 제어하기 위해 연구자들은 ControlNet, Adapters 및 ReferenceNet과 같은 추가 아키텍처를 도입하여 조건 제어를 통합합니다. 그러나 현재의 조절 가능한 생성 방법은 종종 상당한 추가 계산 리소스를 필요로 하며, 특히 비디오 생성의 경우 교육에 어려움을 겪거나 제어가 약합니다. 본 논문에서는 ControNeXt를 제안합니다. 이는 이미지 및 비디오 생성에 대한 강력하고 효율적인 방법입니다. 먼저, 우리는 더 간단하고 효율적인 아키텍처를 설계하여 추가 비용이 최소화된 상태로 기본 모델과 비교하여 무겁고 추가적인 가지를 대체합니다. 이러한 간결한 구조는 또한 우리의 방법이 다른 LoRA 가중치와 매끄럽게 통합되도록 하여 추가 교육 없이 스타일 변경이 가능하게 합니다. 교육 측면에서는 대안과 비교하여 학습 가능한 매개변수를 최대 90% 줄였습니다. 더 나아가, 빠르고 안정적인 교육 수렴을 달성하기 위해 'Zero-Convolution' 대신 Cross Normalization (CN)이라는 다른 방법을 제안합니다. 이미지 및 비디오에 걸쳐 다양한 기본 모델로 실험을 수행하여 우리의 방법의 견고성을 입증했습니다.
English
Diffusion models have demonstrated remarkable and robust abilities in both
image and video generation. To achieve greater control over generated results,
researchers introduce additional architectures, such as ControlNet, Adapters
and ReferenceNet, to integrate conditioning controls. However, current
controllable generation methods often require substantial additional
computational resources, especially for video generation, and face challenges
in training or exhibit weak control. In this paper, we propose ControlNeXt: a
powerful and efficient method for controllable image and video generation. We
first design a more straightforward and efficient architecture, replacing heavy
additional branches with minimal additional cost compared to the base model.
Such a concise structure also allows our method to seamlessly integrate with
other LoRA weights, enabling style alteration without the need for additional
training. As for training, we reduce up to 90% of learnable parameters compared
to the alternatives. Furthermore, we propose another method called Cross
Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and
stable training convergence. We have conducted various experiments with
different base models across images and videos, demonstrating the robustness of
our method.Summary
AI-Generated Summary