DMM: Construindo um Modelo Versátil de Geração de Imagens via Fusão de Modelos Baseada em Distilação
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
April 16, 2025
Autores: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI
Resumo
O sucesso dos modelos de geração de texto para imagem (T2I) impulsionou uma proliferação de diversos checkpoints de modelos ajustados a partir do mesmo modelo base em vários conjuntos de dados especializados. Essa produção massiva de modelos especializados introduz novos desafios relacionados à alta redundância de parâmetros e aos enormes custos de armazenamento, tornando necessário o desenvolvimento de métodos eficazes para consolidar e unificar as capacidades de diversos modelos poderosos em um único. Uma prática comum na fusão de modelos adota a interpolação linear estática no espaço de parâmetros para alcançar o objetivo de mistura de estilos. No entanto, essa abordagem ignora as características da tarefa de geração T2I, em que diversos modelos distintos abrangem uma variedade de estilos que podem levar a incompatibilidades e confusão no modelo resultante. Para resolver esse problema, introduzimos um pipeline de geração de imagens controlável por estilo, capaz de gerar imagens de estilos arbitrários com precisão sob o controle de vetores de estilo. Com base nesse design, propomos o paradigma de fusão de modelos baseado em destilação de pontuação (DMM), que comprime múltiplos modelos em um único modelo T2I versátil. Além disso, repensamos e reformulamos a tarefa de fusão de modelos no contexto da geração T2I, apresentando novos objetivos de fusão e protocolos de avaliação. Nossos experimentos demonstram que o DMM pode reorganizar de forma compacta o conhecimento de múltiplos modelos professores e alcançar geração controlável de estilos arbitrários.
English
The success of text-to-image (T2I) generation models has spurred a
proliferation of numerous model checkpoints fine-tuned from the same base model
on various specialized datasets. This overwhelming specialized model production
introduces new challenges for high parameter redundancy and huge storage cost,
thereby necessitating the development of effective methods to consolidate and
unify the capabilities of diverse powerful models into a single one. A common
practice in model merging adopts static linear interpolation in the parameter
space to achieve the goal of style mixing. However, it neglects the features of
T2I generation task that numerous distinct models cover sundry styles which may
lead to incompatibility and confusion in the merged model. To address this
issue, we introduce a style-promptable image generation pipeline which can
accurately generate arbitrary-style images under the control of style vectors.
Based on this design, we propose the score distillation based model merging
paradigm (DMM), compressing multiple models into a single versatile T2I model.
Moreover, we rethink and reformulate the model merging task in the context of
T2I generation, by presenting new merging goals and evaluation protocols. Our
experiments demonstrate that DMM can compactly reorganize the knowledge from
multiple teacher models and achieve controllable arbitrary-style generation.Summary
AI-Generated Summary