ChatPaper.aiChatPaper

画像生成のためのマルチLoRA構成

Multi-LoRA Composition for Image Generation

February 26, 2024
著者: Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen
cs.AI

要旨

Low-Rank Adaptation (LoRA) は、テキストから画像を生成するモデルにおいて、特定のキャラクターや独自のスタイルといった要素を正確に再現するために広く利用されています。しかし、既存の手法では、特に統合するLoRAの数が増えるにつれて、複数のLoRAを効果的に組み合わせることが難しく、複雑な画像の生成が妨げられています。本論文では、デコード中心の視点からマルチLoRAの組み合わせを研究します。我々は、訓練を必要としない2つの手法を提案します。1つは、各ノイズ除去ステップで異なるLoRAを切り替えるLoRA Switch、もう1つは、すべてのLoRAを同時に組み込んでより一貫性のある画像合成を導くLoRA Compositeです。提案手法を評価するために、本研究の一環としてComposLoRAという新しい包括的なテストベッドを構築しました。ComposLoRAは、480の組み合わせセットを持つ多様なLoRAカテゴリを特徴としています。GPT-4Vに基づく評価フレームワークを活用した結果、我々の手法は、特に組み合わせるLoRAの数が増える場合において、一般的なベースラインよりも明確な性能向上を示すことが明らかになりました。
English
Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.
PDF330December 15, 2024