ChatPaper.aiChatPaper

Orthogonale aanpassing voor modulaire aanpassing van diffusiemodellen

Orthogonal Adaptation for Modular Customization of Diffusion Models

December 5, 2023
Auteurs: Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein
cs.AI

Samenvatting

Aanpassingstechnieken voor tekst-naar-beeldmodellen hebben de weg vrijgemaakt voor een breed scala aan voorheen onbereikbare toepassingen, waardoor het genereren van specifieke concepten in diverse contexten en stijlen mogelijk wordt gemaakt. Hoewel bestaande methoden hoogwaardige aanpassing voor individuele concepten of een beperkte, vooraf gedefinieerde set ervan mogelijk maken, schieten ze tekort in het bereiken van schaalbaarheid, waarbij een enkel model naadloos talloze concepten kan weergeven. In dit artikel behandelen we een nieuw probleem genaamd Modulaire Aanpassing, met als doel om aangepaste modellen die onafhankelijk zijn verfijnd voor individuele concepten, efficiënt samen te voegen. Hierdoor kan het samengevoegde model gezamenlijk concepten in één afbeelding synthetiseren zonder in te leveren op kwaliteit of extra rekenkosten te maken. Om dit probleem aan te pakken, introduceren we Orthogonale Aanpassing, een methode die is ontworpen om ervoor te zorgen dat de aangepaste modellen, die tijdens het verfijnen geen toegang hebben tot elkaar, orthogonale restgewichten hebben. Dit garandeert dat tijdens de inferentie de aangepaste modellen met minimale interferentie kunnen worden opgeteld. Onze voorgestelde methode is zowel eenvoudig als veelzijdig, toepasbaar op bijna alle optimaliseerbare gewichten in de modelarchitectuur. Door middel van een uitgebreide reeks kwantitatieve en kwalitatieve evaluaties presteert onze methode consistent beter dan relevante referentiemethoden wat betreft efficiëntie en identiteitsbehoud, wat een significante stap voorwaarts betekent in de richting van schaalbare aanpassing van diffusiemodellen.
English
Customization techniques for text-to-image models have paved the way for a wide range of previously unattainable applications, enabling the generation of specific concepts across diverse contexts and styles. While existing methods facilitate high-fidelity customization for individual concepts or a limited, pre-defined set of them, they fall short of achieving scalability, where a single model can seamlessly render countless concepts. In this paper, we address a new problem called Modular Customization, with the goal of efficiently merging customized models that were fine-tuned independently for individual concepts. This allows the merged model to jointly synthesize concepts in one image without compromising fidelity or incurring any additional computational costs. To address this problem, we introduce Orthogonal Adaptation, a method designed to encourage the customized models, which do not have access to each other during fine-tuning, to have orthogonal residual weights. This ensures that during inference time, the customized models can be summed with minimal interference. Our proposed method is both simple and versatile, applicable to nearly all optimizable weights in the model architecture. Through an extensive set of quantitative and qualitative evaluations, our method consistently outperforms relevant baselines in terms of efficiency and identity preservation, demonstrating a significant leap toward scalable customization of diffusion models.
PDF150December 14, 2025