Stylus: Selezione Automatica degli Adattatori per Modelli di Diffusione
Stylus: Automatic Adapter Selection for Diffusion Models
April 29, 2024
Autori: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI
Abstract
Oltre al ridimensionamento dei modelli di base con più dati o parametri, gli adattatori fine-tuned offrono un metodo alternativo per generare immagini personalizzate ad alta fedeltà a costi ridotti. Di conseguenza, gli adattatori sono stati ampiamente adottati dalle comunità open-source, accumulando un database di oltre 100K adattatori, la maggior parte dei quali altamente personalizzati con descrizioni insufficienti. Questo articolo esplora il problema di abbinare il prompt a un insieme di adattatori rilevanti, basandosi su lavori recenti che evidenziano i guadagni di prestazioni ottenuti componendo adattatori. Introduciamo Stylus, che seleziona e compone automaticamente adattatori specifici per il task in base alle parole chiave del prompt. Stylus delinea un approccio in tre fasi che prima riassume gli adattatori con descrizioni e embedding migliorati, recupera gli adattatori rilevanti e poi assembla ulteriormente gli adattatori in base alle parole chiave del prompt, verificando quanto bene si adattano al prompt. Per valutare Stylus, abbiamo sviluppato StylusDocs, un dataset curato che include 75K adattatori con embedding pre-calcolati. Nella nostra valutazione sui checkpoint più popolari di Stable Diffusion, Stylus raggiunge una maggiore efficienza Pareto CLIP-FID ed è preferito due volte di più, sia da valutatori umani che da modelli multimodali, rispetto al modello di base. Visita stylus-diffusion.github.io per maggiori informazioni.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters
provide an alternative way to generate high fidelity, custom images at reduced
costs. As such, adapters have been widely adopted by open-source communities,
accumulating a database of over 100K adapters-most of which are highly
customized with insufficient descriptions. This paper explores the problem of
matching the prompt to a set of relevant adapters, built on recent work that
highlight the performance gains of composing adapters. We introduce Stylus,
which efficiently selects and automatically composes task-specific adapters
based on a prompt's keywords. Stylus outlines a three-stage approach that first
summarizes adapters with improved descriptions and embeddings, retrieves
relevant adapters, and then further assembles adapters based on prompts'
keywords by checking how well they fit the prompt. To evaluate Stylus, we
developed StylusDocs, a curated dataset featuring 75K adapters with
pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion
checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as
preferred, with humans and multimodal models as evaluators, over the base
model. See stylus-diffusion.github.io for more.