ChatPaper.aiChatPaper

DMM: 증류 기반 모델 병합을 통한 다용도 이미지 생성 모델 구축

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

April 16, 2025
저자: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI

초록

텍스트-이미지(T2I) 생성 모델의 성공은 동일한 기본 모델을 다양한 전문 데이터셋에 맞춰 미세 조정한 수많은 모델 체크포인트의 급증을 촉발했습니다. 이러한 압도적인 전문 모델 생산은 높은 매개변수 중복성과 방대한 저장 비용이라는 새로운 도전 과제를 야기하며, 이로 인해 다양한 강력한 모델의 능력을 단일 모델로 통합하고 통일할 수 있는 효과적인 방법의 개발이 필요하게 되었습니다. 모델 병합에서 일반적으로 사용되는 방법은 스타일 혼합을 달성하기 위해 매개변수 공간에서 정적 선형 보간을 채택합니다. 그러나 이 방법은 T2I 생성 작업의 특징, 즉 다양한 스타일을 다루는 수많은 모델이 병합된 모델에서 비호환성과 혼란을 초래할 수 있다는 점을 간과합니다. 이 문제를 해결하기 위해, 우리는 스타일 벡터의 제어 하에서 임의의 스타일 이미지를 정확하게 생성할 수 있는 스타일 프롬프트 가능 이미지 생성 파이프라인을 소개합니다. 이 설계를 기반으로, 우리는 점수 증류 기반 모델 병합 패러다임(DMM)을 제안하여 여러 모델을 단일 다용도 T2I 모델로 압축합니다. 더 나아가, 우리는 T2I 생성의 맥락에서 모델 병합 작업을 재고하고 재구성하여 새로운 병합 목표와 평가 프로토콜을 제시합니다. 우리의 실험은 DMM이 여러 교사 모델의 지식을 간결하게 재구성하고 제어 가능한 임의의 스타일 생성을 달성할 수 있음을 보여줍니다.
English
The success of text-to-image (T2I) generation models has spurred a proliferation of numerous model checkpoints fine-tuned from the same base model on various specialized datasets. This overwhelming specialized model production introduces new challenges for high parameter redundancy and huge storage cost, thereby necessitating the development of effective methods to consolidate and unify the capabilities of diverse powerful models into a single one. A common practice in model merging adopts static linear interpolation in the parameter space to achieve the goal of style mixing. However, it neglects the features of T2I generation task that numerous distinct models cover sundry styles which may lead to incompatibility and confusion in the merged model. To address this issue, we introduce a style-promptable image generation pipeline which can accurately generate arbitrary-style images under the control of style vectors. Based on this design, we propose the score distillation based model merging paradigm (DMM), compressing multiple models into a single versatile T2I model. Moreover, we rethink and reformulate the model merging task in the context of T2I generation, by presenting new merging goals and evaluation protocols. Our experiments demonstrate that DMM can compactly reorganize the knowledge from multiple teacher models and achieve controllable arbitrary-style generation.

Summary

AI-Generated Summary

PDF193April 18, 2025