ChatPaper.aiChatPaper

Stylus: Automatische Adapterselectie voor Diffusiemodellen

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
Auteurs: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

Samenvatting

Naast het schalen van basismodellen met meer data of parameters, bieden fijn afgestemde adapters een alternatieve manier om hoogwaardige, aangepaste afbeeldingen te genereren tegen lagere kosten. Adapters zijn daarom breed geadopteerd door open-source gemeenschappen, wat heeft geleid tot een database van meer dan 100K adapters - waarvan de meeste sterk zijn aangepast met onvoldoende beschrijvingen. Dit artikel onderzoekt het probleem van het matchen van een prompt aan een set relevante adapters, voortbouwend op recent werk dat de prestatieverbeteringen van het combineren van adapters benadrukt. We introduceren Stylus, dat efficiënt taakspecifieke adapters selecteert en automatisch samenstelt op basis van de trefwoorden in een prompt. Stylus beschrijft een driestapsaanpak die eerst adapters samenvat met verbeterde beschrijvingen en embeddings, relevante adapters ophaalt, en vervolgens adapters verder assembleert op basis van de trefwoorden in de prompt door te controleren hoe goed ze bij de prompt passen. Om Stylus te evalueren, ontwikkelden we StylusDocs, een gecureerde dataset met 75K adapters met vooraf berekende adapter-embeddings. In onze evaluatie op populaire Stable Diffusion checkpoints, behaalt Stylus een grotere CLIP-FID Pareto-efficiëntie en wordt het twee keer zo vaak verkozen, met zowel mensen als multimodale modellen als beoordelaars, boven het basismodel. Zie stylus-diffusion.github.io voor meer informatie.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.
PDF151December 15, 2024