ChatPaper.aiChatPaper

Toffee: 주제 기반 텍스트-이미지 생성을 위한 효율적인 대규모 데이터셋 구축

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

June 13, 2024
저자: Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun
cs.AI

초록

주체 기반 텍스트-이미지 생성 분야에서 최근 연구들은 수많은 이미지 쌍을 포함한 합성 데이터셋을 통해 모델을 학습시켜 우수한 성능을 달성했습니다. 이러한 데이터셋으로 학습된 생성 모델은 특정 주체에 대해 임의의 테스트 이미지에서 텍스트와 정렬된 이미지를 제로샷 방식으로 생성할 수 있습니다. 이는 테스트 이미지에 대한 추가 미세 조정이 필요한 방법들보다도 더 나은 성능을 보입니다. 그러나 이러한 데이터셋을 생성하는 비용은 대부분의 연구자들에게 부담이 됩니다. 단일 학습 쌍을 생성하기 위해, 현재의 방법들은 미리 학습된 텍스트-이미지 모델을 주체 이미지에 대해 미세 조정하여 세부 사항을 포착한 후, 이 미세 조정된 모델을 사용하여 창의적인 텍스트 프롬프트를 기반으로 동일한 주체의 이미지를 생성합니다. 결과적으로 수백만 개의 주체를 포함하는 대규모 데이터셋을 구축하려면 수십만 GPU 시간이 필요할 수 있습니다. 이 문제를 해결하기 위해, 우리는 주체 기반 편집 및 생성을 위한 데이터셋을 효율적으로 구축하는 방법인 Toffee를 제안합니다. 구체적으로, 우리의 데이터셋 구축은 주체 수준의 미세 조정이 필요하지 않습니다. 두 개의 생성 모델을 사전 학습한 후, 우리는 무한한 수의 고품질 샘플을 생성할 수 있습니다. 우리는 주체 기반 이미지 편집 및 생성을 위한 첫 번째 대규모 데이터셋을 구축했으며, 이 데이터셋은 500만 개의 이미지 쌍, 텍스트 프롬프트, 그리고 마스크를 포함합니다. 우리의 데이터셋은 이전 최대 데이터셋의 5배 크기이지만, 우리의 비용은 수만 GPU 시간 더 적습니다. 제안된 데이터셋을 테스트하기 위해, 우리는 주체 기반 이미지 편집 및 생성을 모두 수행할 수 있는 모델도 제안합니다. 우리가 제안한 데이터셋으로 모델을 간단히 학습시킴으로써, 경쟁력 있는 결과를 얻었으며, 이는 제안된 데이터셋 구축 프레임워크의 효과를 입증합니다.
English
In subject-driven text-to-image generation, recent works have achieved superior performance by training the model on synthetic datasets containing numerous image pairs. Trained on these datasets, generative models can produce text-aligned images for specific subject from arbitrary testing image in a zero-shot manner. They even outperform methods which require additional fine-tuning on testing images. However, the cost of creating such datasets is prohibitive for most researchers. To generate a single training pair, current methods fine-tune a pre-trained text-to-image model on the subject image to capture fine-grained details, then use the fine-tuned model to create images for the same subject based on creative text prompts. Consequently, constructing a large-scale dataset with millions of subjects can require hundreds of thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient method to construct datasets for subject-driven editing and generation. Specifically, our dataset construction does not need any subject-level fine-tuning. After pre-training two generative models, we are able to generate infinite number of high-quality samples. We construct the first large-scale dataset for subject-driven image editing and generation, which contains 5 million image pairs, text prompts, and masks. Our dataset is 5 times the size of previous largest dataset, yet our cost is tens of thousands of GPU hours lower. To test the proposed dataset, we also propose a model which is capable of both subject-driven image editing and generation. By simply training the model on our proposed dataset, it obtains competitive results, illustrating the effectiveness of the proposed dataset construction framework.

Summary

AI-Generated Summary

PDF52December 6, 2024