ChatPaper.aiChatPaper

DMM : Construction d'un modèle polyvalent de génération d'images via la fusion de modèles basée sur la distillation

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

April 16, 2025
Auteurs: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI

Résumé

Le succès des modèles de génération texte-image (T2I) a entraîné une prolifération de nombreux points de contrôle de modèles affinés à partir du même modèle de base sur divers ensembles de données spécialisés. Cette production massive de modèles spécialisés introduit de nouveaux défis en termes de redondance élevée des paramètres et de coût de stockage important, nécessitant ainsi le développement de méthodes efficaces pour consolider et unifier les capacités de divers modèles puissants en un seul. Une pratique courante dans la fusion de modèles consiste à adopter une interpolation linéaire statique dans l'espace des paramètres pour atteindre l'objectif de mélange de styles. Cependant, cette approche néglige les caractéristiques de la tâche de génération T2I, où de nombreux modèles distincts couvrent une variété de styles, ce qui peut entraîner une incompatibilité et une confusion dans le modèle fusionné. Pour résoudre ce problème, nous introduisons un pipeline de génération d'images pilotable par style, capable de générer avec précision des images de style arbitraire sous le contrôle de vecteurs de style. Sur la base de cette conception, nous proposons le paradigme de fusion de modèles par distillation de score (DMM), compressant plusieurs modèles en un seul modèle T2I polyvalent. De plus, nous repensons et reformulons la tâche de fusion de modèles dans le contexte de la génération T2I, en présentant de nouveaux objectifs de fusion et des protocoles d'évaluation. Nos expériences démontrent que DMM peut réorganiser de manière compacte les connaissances de plusieurs modèles enseignants et réaliser une génération contrôlée de styles arbitraires.
English
The success of text-to-image (T2I) generation models has spurred a proliferation of numerous model checkpoints fine-tuned from the same base model on various specialized datasets. This overwhelming specialized model production introduces new challenges for high parameter redundancy and huge storage cost, thereby necessitating the development of effective methods to consolidate and unify the capabilities of diverse powerful models into a single one. A common practice in model merging adopts static linear interpolation in the parameter space to achieve the goal of style mixing. However, it neglects the features of T2I generation task that numerous distinct models cover sundry styles which may lead to incompatibility and confusion in the merged model. To address this issue, we introduce a style-promptable image generation pipeline which can accurately generate arbitrary-style images under the control of style vectors. Based on this design, we propose the score distillation based model merging paradigm (DMM), compressing multiple models into a single versatile T2I model. Moreover, we rethink and reformulate the model merging task in the context of T2I generation, by presenting new merging goals and evaluation protocols. Our experiments demonstrate that DMM can compactly reorganize the knowledge from multiple teacher models and achieve controllable arbitrary-style generation.

Summary

AI-Generated Summary

PDF193April 18, 2025