ChatPaper.aiChatPaper

Stylus : Sélection Automatique d'Adaptateurs pour les Modèles de Diffusion

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
Auteurs: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

Résumé

Au-delà de la mise à l'échelle des modèles de base avec davantage de données ou de paramètres, les adaptateurs fine-tunés offrent une alternative pour générer des images personnalisées de haute fidélité à moindre coût. Ainsi, les adaptateurs ont été largement adoptés par les communautés open-source, accumulant une base de données de plus de 100 000 adaptateurs - dont la plupart sont hautement personnalisés avec des descriptions insuffisantes. Cet article explore le problème de l'appariement d'une instruction (prompt) à un ensemble d'adaptateurs pertinents, en s'appuyant sur des travaux récents qui mettent en avant les gains de performance obtenus par la composition d'adaptateurs. Nous présentons Stylus, qui sélectionne efficacement et compose automatiquement des adaptateurs spécifiques à une tâche en fonction des mots-clés d'une instruction. Stylus propose une approche en trois étapes : d'abord, il résume les adaptateurs avec des descriptions et des embeddings améliorés, puis il récupère les adaptateurs pertinents, et enfin il assemble davantage les adaptateurs en fonction des mots-clés de l'instruction en vérifiant leur adéquation à celle-ci. Pour évaluer Stylus, nous avons développé StylusDocs, un ensemble de données soigneusement sélectionné comprenant 75 000 adaptateurs avec des embeddings pré-calculés. Dans notre évaluation sur des points de contrôle populaires de Stable Diffusion, Stylus atteint une meilleure efficacité Pareto CLIP-FID et est deux fois plus préféré, tant par des évaluateurs humains que par des modèles multimodaux, par rapport au modèle de base. Consultez stylus-diffusion.github.io pour en savoir plus.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.

Summary

AI-Generated Summary

PDF151December 15, 2024