Stylus: Selección Automática de Adaptadores para Modelos de Difusión
Stylus: Automatic Adapter Selection for Diffusion Models
April 29, 2024
Autores: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI
Resumen
Más allá de escalar modelos base con más datos o parámetros, los adaptadores ajustados ofrecen una alternativa para generar imágenes personalizadas de alta fidelidad a costos reducidos. Como tal, los adaptadores han sido ampliamente adoptados por comunidades de código abierto, acumulando una base de datos de más de 100K adaptadores, la mayoría de los cuales están altamente personalizados con descripciones insuficientes. Este artículo explora el problema de emparejar el prompt con un conjunto de adaptadores relevantes, basándose en trabajos recientes que destacan las mejoras de rendimiento al componer adaptadores. Presentamos Stylus, que selecciona y compone automáticamente adaptadores específicos para tareas basándose en las palabras clave del prompt. Stylus describe un enfoque de tres etapas que primero resume los adaptadores con descripciones y embeddings mejorados, recupera adaptadores relevantes y luego los ensambla según las palabras clave del prompt, verificando qué tan bien se ajustan al prompt. Para evaluar Stylus, desarrollamos StylusDocs, un conjunto de datos curado que incluye 75K adaptadores con embeddings precalculados. En nuestra evaluación en checkpoints populares de Stable Diffusion, Stylus logra una mayor eficiencia Pareto en CLIP-FID y es dos veces más preferido, tanto por humanos como por modelos multimodales como evaluadores, en comparación con el modelo base. Visita stylus-diffusion.github.io para más información.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters
provide an alternative way to generate high fidelity, custom images at reduced
costs. As such, adapters have been widely adopted by open-source communities,
accumulating a database of over 100K adapters-most of which are highly
customized with insufficient descriptions. This paper explores the problem of
matching the prompt to a set of relevant adapters, built on recent work that
highlight the performance gains of composing adapters. We introduce Stylus,
which efficiently selects and automatically composes task-specific adapters
based on a prompt's keywords. Stylus outlines a three-stage approach that first
summarizes adapters with improved descriptions and embeddings, retrieves
relevant adapters, and then further assembles adapters based on prompts'
keywords by checking how well they fit the prompt. To evaluate Stylus, we
developed StylusDocs, a curated dataset featuring 75K adapters with
pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion
checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as
preferred, with humans and multimodal models as evaluators, over the base
model. See stylus-diffusion.github.io for more.Summary
AI-Generated Summary