DMM: Construyendo un Modelo Versátil de Generación de Imágenes mediante Fusión de Modelos Basada en Distilación
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
April 16, 2025
Autores: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI
Resumen
El éxito de los modelos de generación de texto a imagen (T2I) ha impulsado una proliferación de numerosos puntos de control de modelos ajustados a partir del mismo modelo base en diversos conjuntos de datos especializados. Esta abrumadora producción de modelos especializados introduce nuevos desafíos relacionados con la redundancia de parámetros y los elevados costos de almacenamiento, lo que hace necesario el desarrollo de métodos efectivos para consolidar y unificar las capacidades de diversos modelos potentes en uno solo. Una práctica común en la fusión de modelos adopta la interpolación lineal estática en el espacio de parámetros para lograr el objetivo de mezcla de estilos. Sin embargo, esta práctica no tiene en cuenta las características de la tarea de generación T2I, donde numerosos modelos distintos abarcan una variedad de estilos que pueden llevar a incompatibilidad y confusión en el modelo fusionado. Para abordar este problema, introducimos una pipeline de generación de imágenes con estilo controlable por prompts, capaz de generar imágenes de cualquier estilo con precisión bajo el control de vectores de estilo. Basándonos en este diseño, proponemos el paradigma de fusión de modelos basado en destilación de puntuaciones (DMM), que comprime múltiples modelos en un único modelo T2I versátil. Además, replanteamos y reformulamos la tarea de fusión de modelos en el contexto de la generación T2I, presentando nuevos objetivos de fusión y protocolos de evaluación. Nuestros experimentos demuestran que DMM puede reorganizar de manera compacta el conocimiento de múltiples modelos maestros y lograr una generación controlable de cualquier estilo.
English
The success of text-to-image (T2I) generation models has spurred a
proliferation of numerous model checkpoints fine-tuned from the same base model
on various specialized datasets. This overwhelming specialized model production
introduces new challenges for high parameter redundancy and huge storage cost,
thereby necessitating the development of effective methods to consolidate and
unify the capabilities of diverse powerful models into a single one. A common
practice in model merging adopts static linear interpolation in the parameter
space to achieve the goal of style mixing. However, it neglects the features of
T2I generation task that numerous distinct models cover sundry styles which may
lead to incompatibility and confusion in the merged model. To address this
issue, we introduce a style-promptable image generation pipeline which can
accurately generate arbitrary-style images under the control of style vectors.
Based on this design, we propose the score distillation based model merging
paradigm (DMM), compressing multiple models into a single versatile T2I model.
Moreover, we rethink and reformulate the model merging task in the context of
T2I generation, by presenting new merging goals and evaluation protocols. Our
experiments demonstrate that DMM can compactly reorganize the knowledge from
multiple teacher models and achieve controllable arbitrary-style generation.Summary
AI-Generated Summary