ChatPaper.aiChatPaper

Stylus: 拡散モデルのための自動アダプタ選択

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
著者: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

要旨

ベースモデルをより多くのデータやパラメータでスケーリングする方法に加えて、ファインチューニングされたアダプターは、コストを削減しながら高忠実度のカスタム画像を生成する代替手段を提供します。そのため、アダプターはオープンソースコミュニティで広く採用され、10万以上のアダプターのデータベースが蓄積されていますが、そのほとんどは高度にカスタマイズされており、十分な説明が不足しています。本論文では、プロンプトを一連の関連アダプターにマッチングする問題を探求し、アダプターを組み合わせることで性能が向上するという最近の研究を基に構築しています。我々はStylusを紹介します。これは、プロンプトのキーワードに基づいてタスク固有のアダプターを効率的に選択し、自動的に組み合わせるものです。Stylusは、まずアダプターを改善された説明と埋め込みで要約し、関連するアダプターを検索し、その後、プロンプトのキーワードに基づいてアダプターをさらに組み立て、プロンプトにどれだけ適合するかをチェックするという3段階のアプローチを概説します。Stylusを評価するために、75Kのアダプターと事前計算されたアダプター埋め込みを特徴とするキュレーションデータセットStylusDocsを開発しました。人とマルチモーダルモデルを評価者として、人気のStable Diffusionチェックポイントでの評価において、Stylusはベースモデルよりも優れたCLIP-FIDパレート効率を達成し、2倍の選好を得ました。詳細はstylus-diffusion.github.ioをご覧ください。
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.
PDF151December 15, 2024