DMM: Construindo um Modelo Versátil de Geração de Imagens via Fusão de Modelos Baseada em Distilação

Resumo

O sucesso dos modelos de geração de texto para imagem (T2I) impulsionou uma proliferação de diversos checkpoints de modelos ajustados a partir do mesmo modelo base em vários conjuntos de dados especializados. Essa produção massiva de modelos especializados introduz novos desafios relacionados à alta redundância de parâmetros e aos enormes custos de armazenamento, tornando necessário o desenvolvimento de métodos eficazes para consolidar e unificar as capacidades de diversos modelos poderosos em um único. Uma prática comum na fusão de modelos adota a interpolação linear estática no espaço de parâmetros para alcançar o objetivo de mistura de estilos. No entanto, essa abordagem ignora as características da tarefa de geração T2I, em que diversos modelos distintos abrangem uma variedade de estilos que podem levar a incompatibilidades e confusão no modelo resultante. Para resolver esse problema, introduzimos um pipeline de geração de imagens controlável por estilo, capaz de gerar imagens de estilos arbitrários com precisão sob o controle de vetores de estilo. Com base nesse design, propomos o paradigma de fusão de modelos baseado em destilação de pontuação (DMM), que comprime múltiplos modelos em um único modelo T2I versátil. Além disso, repensamos e reformulamos a tarefa de fusão de modelos no contexto da geração T2I, apresentando novos objetivos de fusão e protocolos de avaliação. Nossos experimentos demonstram que o DMM pode reorganizar de forma compacta o conhecimento de múltiplos modelos professores e alcançar geração controlável de estilos arbitrários.

English

The success of text-to-image (T2I) generation models has spurred a proliferation of numerous model checkpoints fine-tuned from the same base model on various specialized datasets. This overwhelming specialized model production introduces new challenges for high parameter redundancy and huge storage cost, thereby necessitating the development of effective methods to consolidate and unify the capabilities of diverse powerful models into a single one. A common practice in model merging adopts static linear interpolation in the parameter space to achieve the goal of style mixing. However, it neglects the features of T2I generation task that numerous distinct models cover sundry styles which may lead to incompatibility and confusion in the merged model. To address this issue, we introduce a style-promptable image generation pipeline which can accurately generate arbitrary-style images under the control of style vectors. Based on this design, we propose the score distillation based model merging paradigm (DMM), compressing multiple models into a single versatile T2I model. Moreover, we rethink and reformulate the model merging task in the context of T2I generation, by presenting new merging goals and evaluation protocols. Our experiments demonstrate that DMM can compactly reorganize the knowledge from multiple teacher models and achieve controllable arbitrary-style generation.

DMM: Construindo um Modelo Versátil de Geração de Imagens via Fusão de Modelos Baseada em Distilação

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

Resumo

Summary

Support

Support