ChatPaper.aiChatPaper

DMM: Entwicklung eines vielseitigen Bildgenerierungsmodells durch distillationsbasierte Modellfusion

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

April 16, 2025
Autoren: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
cs.AI

Zusammenfassung

Der Erfolg von Text-zu-Bild (T2I)-Generierungsmodellen hat eine Vielzahl von Modell-Checkpoints hervorgebracht, die aus demselben Basismodell auf verschiedenen spezialisierten Datensätzen feinabgestimmt wurden. Diese überwältigende Produktion spezialisierter Modelle führt zu neuen Herausforderungen in Bezug auf hohe Parameterredundanz und enorme Speicherkosten, was die Entwicklung effektiver Methoden zur Konsolidierung und Vereinigung der Fähigkeiten verschiedener leistungsstarker Modelle in einem einzigen Modell notwendig macht. Eine gängige Praxis bei der Modellzusammenführung ist die Verwendung statischer linearer Interpolation im Parameterraum, um das Ziel der Stilmischung zu erreichen. Dabei werden jedoch die Merkmale der T2I-Generierungsaufgabe vernachlässigt, bei der zahlreiche unterschiedliche Modelle verschiedene Stile abdecken, was zu Inkompatibilität und Verwirrung im zusammengeführten Modell führen kann. Um dieses Problem zu lösen, führen wir eine stilanfragbare Bildgenerierungspipeline ein, die präzise Bilder in beliebigen Stilen unter der Kontrolle von Stilvektoren erzeugen kann. Basierend auf diesem Design schlagen wir das auf Score-Distillation basierende Modellzusammenführungsparadigma (DMM) vor, das mehrere Modelle in ein einziges vielseitiges T2I-Modell komprimiert. Darüber hinaus überdenken und reformulieren wir die Aufgabe der Modellzusammenführung im Kontext der T2I-Generierung, indem wir neue Zusammenführungsziele und Bewertungsprotokolle vorstellen. Unsere Experimente zeigen, dass DMM das Wissen mehrerer Lehrermodelle kompakt reorganisieren und eine kontrollierbare Generierung in beliebigen Stilen erreichen kann.
English
The success of text-to-image (T2I) generation models has spurred a proliferation of numerous model checkpoints fine-tuned from the same base model on various specialized datasets. This overwhelming specialized model production introduces new challenges for high parameter redundancy and huge storage cost, thereby necessitating the development of effective methods to consolidate and unify the capabilities of diverse powerful models into a single one. A common practice in model merging adopts static linear interpolation in the parameter space to achieve the goal of style mixing. However, it neglects the features of T2I generation task that numerous distinct models cover sundry styles which may lead to incompatibility and confusion in the merged model. To address this issue, we introduce a style-promptable image generation pipeline which can accurately generate arbitrary-style images under the control of style vectors. Based on this design, we propose the score distillation based model merging paradigm (DMM), compressing multiple models into a single versatile T2I model. Moreover, we rethink and reformulate the model merging task in the context of T2I generation, by presenting new merging goals and evaluation protocols. Our experiments demonstrate that DMM can compactly reorganize the knowledge from multiple teacher models and achieve controllable arbitrary-style generation.

Summary

AI-Generated Summary

PDF193April 18, 2025