ChatPaper.aiChatPaper

Stylus: Seleção Automática de Adaptadores para Modelos de Difusão

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
Autores: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

Resumo

Além de escalar modelos base com mais dados ou parâmetros, adaptadores ajustados fornecem uma maneira alternativa de gerar imagens personalizadas de alta fidelidade a custos reduzidos. Como tal, os adaptadores têm sido amplamente adotados por comunidades de código aberto, acumulando um banco de dados de mais de 100 mil adaptadores — a maioria dos quais altamente personalizados com descrições insuficientes. Este artigo explora o problema de corresponder o prompt a um conjunto de adaptadores relevantes, com base em trabalhos recentes que destacam os ganhos de desempenho ao compor adaptadores. Introduzimos o Stylus, que seleciona e compõe automaticamente adaptadores específicos para tarefas com base nas palavras-chave de um prompt. O Stylus delineia uma abordagem em três etapas que primeiro resume os adaptadores com descrições e embeddings aprimorados, recupera adaptadores relevantes e, em seguida, monta ainda mais os adaptadores com base nas palavras-chave dos prompts, verificando o quão bem eles se ajustam ao prompt. Para avaliar o Stylus, desenvolvemos o StylusDocs, um conjunto de dados curado com 75 mil adaptadores e embeddings de adaptadores pré-computados. Em nossa avaliação em checkpoints populares do Stable Diffusion, o Stylus alcança maior eficiência de Pareto CLIP-FID e é duas vezes mais preferido, com humanos e modelos multimodais como avaliadores, em comparação com o modelo base. Consulte stylus-diffusion.github.io para mais informações.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.
PDF151December 15, 2024