ChatPaper.aiChatPaper

Stylus: Automatische Adapterauswahl für Diffusionsmodelle

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
Autoren: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

Zusammenfassung

Jenseits der Skalierung von Basismodellen mit mehr Daten oder Parametern bieten feinabgestimmte Adapter eine alternative Möglichkeit, hochwertige, individuelle Bilder zu reduzierten Kosten zu generieren. Daher wurden Adapter von Open-Source-Communities weit verbreitet übernommen und haben eine Datenbank von über 100.000 Adaptern angesammelt, von denen die meisten stark angepasst sind und unzureichende Beschreibungen aufweisen. In diesem Paper wird das Problem der Zuordnung des Ausgangstextes zu einer Reihe relevanter Adapter untersucht, basierend auf aktuellen Arbeiten, die die Leistungssteigerungen durch die Komposition von Adaptern hervorheben. Wir stellen Stylus vor, das effizient task-spezifische Adapter anhand der Schlüsselwörter des Ausgangstextes auswählt und automatisch zusammensetzt. Stylus skizziert einen dreistufigen Ansatz, der zunächst Adapter mit verbesserten Beschreibungen und Einbettungen zusammenfasst, relevante Adapter abruft und dann Adapter basierend auf den Schlüsselwörtern des Ausgangstextes weiter zusammenstellt, indem überprüft wird, wie gut sie zum Ausgangstext passen. Zur Evaluierung von Stylus haben wir StylusDocs entwickelt, einen kuratierten Datensatz mit 75.000 Adaptern mit vorberechneten Adapter-Einbettungen. In unserer Evaluation an beliebten Stable Diffusion Checkpoints erreicht Stylus eine höhere CLIP-FID Pareto-Effizienz und wird mit doppelter Präferenz von Menschen und multimodalen Modellen als Evaluatoren gegenüber dem Basismodell bevorzugt. Besuchen Sie stylus-diffusion.github.io für weitere Informationen.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.

Summary

AI-Generated Summary

PDF151December 15, 2024