DMM : Construction d'un modèle polyvalent de génération d'images via la fusion de modèles basée sur la distillation
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
April 16, 2025
Auteurs: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI
Résumé
Le succès des modèles de génération texte-image (T2I) a entraîné une prolifération de nombreux points de contrôle de modèles affinés à partir du même modèle de base sur divers ensembles de données spécialisés. Cette production massive de modèles spécialisés introduit de nouveaux défis en termes de redondance élevée des paramètres et de coût de stockage important, nécessitant ainsi le développement de méthodes efficaces pour consolider et unifier les capacités de divers modèles puissants en un seul. Une pratique courante dans la fusion de modèles consiste à adopter une interpolation linéaire statique dans l'espace des paramètres pour atteindre l'objectif de mélange de styles. Cependant, cette approche néglige les caractéristiques de la tâche de génération T2I, où de nombreux modèles distincts couvrent une variété de styles, ce qui peut entraîner une incompatibilité et une confusion dans le modèle fusionné. Pour résoudre ce problème, nous introduisons un pipeline de génération d'images pilotable par style, capable de générer avec précision des images de style arbitraire sous le contrôle de vecteurs de style. Sur la base de cette conception, nous proposons le paradigme de fusion de modèles par distillation de score (DMM), compressant plusieurs modèles en un seul modèle T2I polyvalent. De plus, nous repensons et reformulons la tâche de fusion de modèles dans le contexte de la génération T2I, en présentant de nouveaux objectifs de fusion et des protocoles d'évaluation. Nos expériences démontrent que DMM peut réorganiser de manière compacte les connaissances de plusieurs modèles enseignants et réaliser une génération contrôlée de styles arbitraires.
English
The success of text-to-image (T2I) generation models has spurred a
proliferation of numerous model checkpoints fine-tuned from the same base model
on various specialized datasets. This overwhelming specialized model production
introduces new challenges for high parameter redundancy and huge storage cost,
thereby necessitating the development of effective methods to consolidate and
unify the capabilities of diverse powerful models into a single one. A common
practice in model merging adopts static linear interpolation in the parameter
space to achieve the goal of style mixing. However, it neglects the features of
T2I generation task that numerous distinct models cover sundry styles which may
lead to incompatibility and confusion in the merged model. To address this
issue, we introduce a style-promptable image generation pipeline which can
accurately generate arbitrary-style images under the control of style vectors.
Based on this design, we propose the score distillation based model merging
paradigm (DMM), compressing multiple models into a single versatile T2I model.
Moreover, we rethink and reformulate the model merging task in the context of
T2I generation, by presenting new merging goals and evaluation protocols. Our
experiments demonstrate that DMM can compactly reorganize the knowledge from
multiple teacher models and achieve controllable arbitrary-style generation.Summary
AI-Generated Summary