ChatPaper.aiChatPaper

SwiftBrush v2: あなたのワンステップ拡散モデルをその教師よりも優れたものに

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

August 26, 2024
著者: Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran
cs.AI

要旨

本論文では、卓越した1ステップのテキストから画像への拡散モデルであるSwiftBrushの性能を向上させ、複数ステップの安定拡散モデルであるStable Diffusionと競争力を持たせることを目指します。最初に、SwiftBrushとSD Turboの間の品質と多様性のトレードオフを探求します。前者は画像の多様性に優れており、後者は画像の品質に優れています。この観察から、より良い重みの初期化や効率的なLoRAトレーニングを含むトレーニング方法論の改良を提案します。さらに、新しいクランプ付きCLIP損失の導入により、画像とテキストの整合性が向上し、画像の品質が向上します。驚くべきことに、効率的なLoRAと完全なトレーニングでトレーニングされたモデルの重みを組み合わせることで、新しい最先端の1ステップ拡散モデルを実現し、FID値が8.14となり、すべてのGANベースおよび複数ステップの安定拡散モデルを上回ります。評価コードは以下で入手可能です:https://github.com/vinairesearch/swiftbrushv2.
English
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The evaluation code is available at: https://github.com/vinairesearch/swiftbrushv2.

Summary

AI-Generated Summary

PDF636November 16, 2024