ChatPaper.aiChatPaper

스타일러스(Stylus): 확산 모델을 위한 자동 어댑터 선택

Stylus: Automatic Adapter Selection for Diffusion Models

April 29, 2024
저자: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
cs.AI

초록

기본 모델을 더 많은 데이터나 파라미터로 확장하는 것 외에도, 미세 조정된 어댑터는 높은 충실도의 맞춤형 이미지를 저렴한 비용으로 생성할 수 있는 대안을 제공합니다. 이에 따라 어댑터는 오픈소스 커뮤니티에서 널리 채택되어 10만 개 이상의 어댑터 데이터베이스를 구축했으며, 이 중 대부분은 설명이 부족한 상태로 고도로 맞춤화되어 있습니다. 본 논문은 프롬프트를 관련 어댑터 세트와 매칭하는 문제를 탐구하며, 최근 연구에서 어댑터를 조합함으로써 얻은 성능 향상을 기반으로 합니다. 우리는 Stylus를 소개하는데, 이는 프롬프트의 키워드를 기반으로 작업별 어댑터를 효율적으로 선택하고 자동으로 조합합니다. Stylus는 세 단계 접근 방식을 제시합니다: 먼저 개선된 설명과 임베딩으로 어댑터를 요약하고, 관련 어댑터를 검색한 다음, 프롬프트의 키워드를 기반으로 어댑터를 조합하며 프롬프트에 얼마나 잘 맞는지 확인합니다. Stylus를 평가하기 위해, 우리는 75,000개의 어댑터와 사전 계산된 어댑터 임베딩을 포함한 StylusDocs 데이터셋을 개발했습니다. 인기 있는 Stable Diffusion 체크포인트에 대한 평가에서, Stylus는 CLIP-FID 파레토 효율성을 더 높였으며, 인간과 멀티모달 모델을 평가자로 사용한 결과 기본 모델보다 두 배 더 선호되었습니다. 자세한 내용은 stylus-diffusion.github.io를 참조하십시오.
English
Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.

Summary

AI-Generated Summary

PDF151December 15, 2024