DMM: Создание универсальной модели генерации изображений с помощью слияния моделей на основе дистилляции
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
April 16, 2025
Авторы: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI
Аннотация
Успех моделей генерации изображений из текста (Text-to-Image, T2I) привел к появлению множества контрольных точек моделей, дообученных на основе одной базовой модели на различных специализированных наборах данных. Это избыточное производство специализированных моделей создает новые проблемы, связанные с высокой избыточностью параметров и огромными затратами на хранение, что требует разработки эффективных методов для консолидации и объединения возможностей различных мощных моделей в единую. Распространенной практикой в слиянии моделей является использование статической линейной интерполяции в пространстве параметров для достижения смешения стилей. Однако этот подход игнорирует особенности задачи генерации T2I, где множество различных моделей охватывают разнообразные стили, что может привести к несовместимости и путанице в объединенной модели. Для решения этой проблемы мы представляем конвейер генерации изображений с управлением стилями (style-promptable), который может точно генерировать изображения произвольных стилей под управлением стилевых векторов. На основе этого подхода мы предлагаем парадигму слияния моделей на основе дистилляции оценок (Score Distillation based Model Merging, DMM), позволяющую сжать несколько моделей в одну универсальную T2I-модель. Кроме того, мы переосмысливаем и переформулируем задачу слияния моделей в контексте генерации T2I, предлагая новые цели слияния и протоколы оценки. Наши эксперименты демонстрируют, что DMM может компактно реорганизовать знания из нескольких моделей-учителей и достичь управляемой генерации изображений произвольных стилей.
English
The success of text-to-image (T2I) generation models has spurred a
proliferation of numerous model checkpoints fine-tuned from the same base model
on various specialized datasets. This overwhelming specialized model production
introduces new challenges for high parameter redundancy and huge storage cost,
thereby necessitating the development of effective methods to consolidate and
unify the capabilities of diverse powerful models into a single one. A common
practice in model merging adopts static linear interpolation in the parameter
space to achieve the goal of style mixing. However, it neglects the features of
T2I generation task that numerous distinct models cover sundry styles which may
lead to incompatibility and confusion in the merged model. To address this
issue, we introduce a style-promptable image generation pipeline which can
accurately generate arbitrary-style images under the control of style vectors.
Based on this design, we propose the score distillation based model merging
paradigm (DMM), compressing multiple models into a single versatile T2I model.
Moreover, we rethink and reformulate the model merging task in the context of
T2I generation, by presenting new merging goals and evaluation protocols. Our
experiments demonstrate that DMM can compactly reorganize the knowledge from
multiple teacher models and achieve controllable arbitrary-style generation.Summary
AI-Generated Summary