DMM: Costruire un Modello Versatile per la Generazione di Immagini tramite Fusione di Modelli Basata su Distillazione
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
April 16, 2025
Autori: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI
Abstract
Il successo dei modelli di generazione da testo a immagine (T2I) ha portato a una proliferazione di numerosi checkpoint di modelli ottimizzati a partire dallo stesso modello di base su vari dataset specializzati. Questa produzione eccessiva di modelli specializzati introduce nuove sfide legate all'elevata ridondanza dei parametri e agli enormi costi di archiviazione, rendendo necessario lo sviluppo di metodi efficaci per consolidare e unificare le capacità di diversi modelli potenti in un unico modello. Una pratica comune nella fusione di modelli adotta l'interpolazione lineare statica nello spazio dei parametri per raggiungere l'obiettivo del mix di stili. Tuttavia, questa pratica trascura le caratteristiche del compito di generazione T2I, in cui numerosi modelli distinti coprono una varietà di stili che possono portare a incompatibilità e confusione nel modello fuso. Per affrontare questo problema, introduciamo una pipeline di generazione di immagini controllabile dallo stile (style-promptable) in grado di generare accuratamente immagini di stile arbitrario sotto il controllo di vettori di stile. Basandoci su questo design, proponiamo il paradigma di fusione di modelli basato sulla distillazione del punteggio (DMM), che comprime più modelli in un unico modello T2I versatile. Inoltre, ripensiamo e riformuliamo il compito di fusione di modelli nel contesto della generazione T2I, presentando nuovi obiettivi di fusione e protocolli di valutazione. I nostri esperimenti dimostrano che il DMM può riorganizzare in modo compatto la conoscenza proveniente da più modelli insegnanti e raggiungere una generazione controllabile di stili arbitrari.
English
The success of text-to-image (T2I) generation models has spurred a
proliferation of numerous model checkpoints fine-tuned from the same base model
on various specialized datasets. This overwhelming specialized model production
introduces new challenges for high parameter redundancy and huge storage cost,
thereby necessitating the development of effective methods to consolidate and
unify the capabilities of diverse powerful models into a single one. A common
practice in model merging adopts static linear interpolation in the parameter
space to achieve the goal of style mixing. However, it neglects the features of
T2I generation task that numerous distinct models cover sundry styles which may
lead to incompatibility and confusion in the merged model. To address this
issue, we introduce a style-promptable image generation pipeline which can
accurately generate arbitrary-style images under the control of style vectors.
Based on this design, we propose the score distillation based model merging
paradigm (DMM), compressing multiple models into a single versatile T2I model.
Moreover, we rethink and reformulate the model merging task in the context of
T2I generation, by presenting new merging goals and evaluation protocols. Our
experiments demonstrate that DMM can compactly reorganize the knowledge from
multiple teacher models and achieve controllable arbitrary-style generation.Summary
AI-Generated Summary