ChatPaper.aiChatPaper

Стилус: Автоматический выбор адаптера для моделей диффузии

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
Авторы: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

Аннотация

Помимо масштабирования базовых моделей с помощью большего объема данных или параметров, тонко настроенные адаптеры предоставляют альтернативный способ создания изображений высокой точности по индивидуальному заказу с сниженными затратами. Таким образом, адаптеры широко приняты сообществами с открытым исходным кодом, накопив базу данных из более чем 100 тыс. адаптеров, большинство из которых высоко настраиваемы, но имеют недостаточные описания. В данной статье исследуется проблема сопоставления запроса с набором соответствующих адаптеров, основанная на недавних исследованиях, выделяющих повышение производительности при компоновке адаптеров. Мы представляем Stylus, который эффективно выбирает и автоматически комбинирует задаче-специфические адаптеры на основе ключевых слов запроса. Stylus описывает трехэтапный подход, который сначала резюмирует адаптеры с улучшенными описаниями и векторными представлениями, извлекает соответствующие адаптеры, а затем дополнительно собирает адаптеры на основе ключевых слов запроса, проверяя их соответствие запросу. Для оценки Stylus мы разработали StylusDocs, подготовленный набор данных, включающий 75 тыс. адаптеров с предварительно вычисленными векторными представлениями адаптеров. В нашей оценке на популярных точках контроля Stable Diffusion Stylus достигает большей эффективности Парето CLIP-FID и вдвое предпочтительнее, как для людей, так и для мультимодельных моделей-оценщиков, по сравнению с базовой моделью. Более подробную информацию можно найти на stylus-diffusion.github.io.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.

Summary

AI-Generated Summary

PDF151December 15, 2024