ChatPaper.aiChatPaper

DMM: Het bouwen van een veelzijdig beeldgeneratiemodel via distillatiegebaseerde modelintegratie

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

April 16, 2025
Auteurs: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI

Samenvatting

Het succes van tekst-naar-beeld (T2I) generatiemodellen heeft geleid tot een proliferatie van talrijke modelcheckpoints die zijn verfijnd vanuit hetzelfde basismodel op verschillende gespecialiseerde datasets. Deze overweldigende productie van gespecialiseerde modellen introduceert nieuwe uitdagingen voor hoge parameterredundantie en enorme opslagkosten, waardoor de ontwikkeling van effectieve methoden om de capaciteiten van diverse krachtige modellen te consolideren en te verenigen in één enkel model noodzakelijk is. Een gangbare praktijk bij het samenvoegen van modellen is het gebruik van statische lineaire interpolatie in de parameterruimte om het doel van stijlmenging te bereiken. Dit negeert echter de kenmerken van de T2I-generatietaak, waarbij talrijke verschillende modellen uiteenlopende stijlen omvatten, wat kan leiden tot incompatibiliteit en verwarring in het samengevoegde model. Om dit probleem aan te pakken, introduceren we een stijl-aanstuurbaar beeldgeneratiepijplijn die nauwkeurig afbeeldingen in willekeurige stijlen kan genereren onder controle van stijlvectoren. Op basis van dit ontwerp stellen we het score-distillatie gebaseerde model-samenvoegingsparadigma (DMM) voor, dat meerdere modellen comprimeert tot één veelzijdig T2I-model. Bovendien heroverwegen en herformuleren we de taak van model-samenvoeging in de context van T2I-generatie, door nieuwe samenvoegingsdoelen en evaluatieprotocollen te presenteren. Onze experimenten tonen aan dat DMM de kennis van meerdere leraarmodellen compact kan reorganiseren en beheersbare generatie in willekeurige stijlen kan bereiken.
English
The success of text-to-image (T2I) generation models has spurred a proliferation of numerous model checkpoints fine-tuned from the same base model on various specialized datasets. This overwhelming specialized model production introduces new challenges for high parameter redundancy and huge storage cost, thereby necessitating the development of effective methods to consolidate and unify the capabilities of diverse powerful models into a single one. A common practice in model merging adopts static linear interpolation in the parameter space to achieve the goal of style mixing. However, it neglects the features of T2I generation task that numerous distinct models cover sundry styles which may lead to incompatibility and confusion in the merged model. To address this issue, we introduce a style-promptable image generation pipeline which can accurately generate arbitrary-style images under the control of style vectors. Based on this design, we propose the score distillation based model merging paradigm (DMM), compressing multiple models into a single versatile T2I model. Moreover, we rethink and reformulate the model merging task in the context of T2I generation, by presenting new merging goals and evaluation protocols. Our experiments demonstrate that DMM can compactly reorganize the knowledge from multiple teacher models and achieve controllable arbitrary-style generation.

Summary

AI-Generated Summary

PDF193April 18, 2025