CollectionLoRA: Verzamelen van 50 effecten in één LoRA via Multi-Teacher On-Policy Distillatie

Samenvatting

Aangepaste beeldbewerking heeft als doel om voorgetrainde diffusiemodellen uit te rusten met specifieke visuele effecten met behulp van beperkte gepaarde gegevens, doorgaans via Low-Rank Adaptation (LoRA). Naarmate het aantal gewenste effecten toeneemt, zorgt de opslag en het dynamisch laden van deze vele effect-LoRA's voor een aanzienlijk hogere implementatie-overhead. Bovendien combineren huidige pijplijnen deze effect-LoRA's doorgaans met versnellingsmodules voor snelle generatie, wat leidt tot ernstige parameterinterferentie en resulteert in conceptbloeding en stijlvermindering. Wij stellen CollectionLoRA voor, een multi-docent on-policy distillatiekader dat in staat is om de concepten van maximaal 50 verschillende effect-LoRA's, samen met mogelijkheden voor generatie in enkele stappen, te distilleren in één enkele LoRA. Dit lost het probleem van kenmerkinterferentie fundamenteel op en verlaagt de implementatiekosten aanzienlijk. Specifiek introduceert de methode (i) een Probabilistische Dubbele-Stroom Routering die het model in staat stelt om tijdens de training willekeurig tussen gegevensbronnen te schakelen, waardoor de generalisatie in niet-geziene scenario's effectief wordt verbeterd; (ii) een Asymmetrische Orthogonale Prompting-strategie om conceptisolatie binnen de promptruimte te bereiken; (iii) een Grof-naar-Fijn Distillatiedoelstelling om de distributiekloof tussen het docent- en studentmodel te verkleinen. Uitgebreide evaluaties tonen aan dat CollectionLoRA alle aangepaste effecten en generatie in enkele stappen distilleert in één enkele LoRA, waardoor de implementatie-overhead wordt verminderd en tegelijkertijd een conceptgetrouwheid wordt bereikt die vergelijkbaar is met of beter is dan die van onafhankelijk getrainde docentmodellen.

English

Customized image editing aims to equip pre-trained diffusion models with specific visual effects using limited paired data, typically via Low-Rank Adaptation (LoRA). As the number of desired effects grows, storing and dynamically loading numerous these effect LoRAs significantly increases deployment overhead. Furthermore, current pipelines typically cascade these effect LoRAs with acceleration modules for fast generation, which triggers severe parameter interference and results in concept bleeding and style degradation. We propose CollectionLoRA, a multi-teacher on-policy distillation framework capable of distilling the concepts of up to 50 different effect LoRAs along with few-step generation capabilities into a single LoRA. This fundamentally resolves the feature interference issue and significantly reduces deployment costs. Specifically, the method introduces (i) a Probabilistic Dual-Stream Routing mechanism that enables the model to randomly switch between data sources during training, effectively enhancing its generalization in unseen scenarios; (ii) an Asymmetric Orthogonal Prompting strategy to achieve concept isolation within the prompt space; (iii) a Coarse-to-Fine Distillation Objective to mitigate the distribution gap between the teacher and student models. Extensive evaluations show that CollectionLoRA distills all customized effects and few-step generation into a single LoRA, reducing deployment overhead while achieving concept fidelity comparable to or better than independently trained teacher models.