맞춤형 텍스트-이미지 생성을 위한 세부 정보 보존 강화: 정규화 없는 접근법
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach
May 23, 2023
저자: Yufan Zhou, Ruiyi Zhang, Tong Sun, Jinhui Xu
cs.AI
초록
최근의 텍스트-이미지 생성 모델들은 높은 충실도로 텍스트에 부합하는 이미지를 생성하는 인상적인 능력을 보여주고 있습니다. 그러나 사용자가 제공한 입력 이미지의 새로운 개념을 반영한 이미지를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 이 문제를 해결하기 위해 연구자들은 사전 학습된 텍스트-이미지 생성 모델을 사용자 정의하는 다양한 방법을 탐구해 왔습니다. 현재, 사전 학습된 텍스트-이미지 생성 모델을 사용자 정의하는 대부분의 기존 방법들은 과적합을 방지하기 위해 정규화 기법을 사용하는 것을 포함합니다. 정규화는 사용자 정의의 어려움을 완화하고 텍스트 지침에 따른 성공적인 콘텐츠 생성으로 이어질 수 있지만, 모델의 능력을 제한하여 세부 정보의 손실과 성능 저하를 초래할 수 있습니다. 본 연구에서는 정규화를 사용하지 않고도 사용자 정의 텍스트-이미지 생성을 가능하게 하는 새로운 프레임워크를 제안합니다. 구체적으로, 제안된 프레임워크는 인코더 네트워크와 정규화 없이도 과적합 문제를 해결할 수 있는 새로운 샘플링 방법으로 구성됩니다. 이 프레임워크를 통해 사용자가 제공한 단일 이미지로 단일 GPU에서 30초 이내에 대규모 텍스트-이미지 생성 모델을 사용자 정의할 수 있습니다. 실험을 통해 제안된 프레임워크가 기존 방법들을 능가하며 더 세밀한 세부 정보를 보존함을 입증합니다.
English
Recent text-to-image generation models have demonstrated impressive
capability of generating text-aligned images with high fidelity. However,
generating images of novel concept provided by the user input image is still a
challenging task. To address this problem, researchers have been exploring
various methods for customizing pre-trained text-to-image generation models.
Currently, most existing methods for customizing pre-trained text-to-image
generation models involve the use of regularization techniques to prevent
over-fitting. While regularization will ease the challenge of customization and
leads to successful content creation with respect to text guidance, it may
restrict the model capability, resulting in the loss of detailed information
and inferior performance. In this work, we propose a novel framework for
customized text-to-image generation without the use of regularization.
Specifically, our proposed framework consists of an encoder network and a novel
sampling method which can tackle the over-fitting problem without the use of
regularization. With the proposed framework, we are able to customize a
large-scale text-to-image generation model within half a minute on single GPU,
with only one image provided by the user. We demonstrate in experiments that
our proposed framework outperforms existing methods, and preserves more
fine-grained details.