CollectionLoRA: 50 Effekte in einem LoRA sammeln mittels Multi-Teacher-On-Policy-Destillation

Zusammenfassung

Maßgeschneiderte Bildbearbeitung zielt darauf ab, vortrainierte Diffusionsmodelle mit spezifischen visuellen Effekten unter Verwendung begrenzter gepaarter Daten auszustatten, typischerweise mittels Low-Rank Adaptation (LoRA). Mit zunehmender Anzahl gewünschter Effekte erhöht das Speichern und dynamische Laden zahlreicher dieser Effekt-LoRAs den Bereitstellungsaufwand erheblich. Darüber hinaus kombinieren aktuelle Pipelines diese Effekt-LoRAs typischerweise mit Beschleunigungsmodulen für eine schnelle Generierung, was zu starken Parameterinterferenzen führt und Konzeptvermischung sowie Stilverschlechterung zur Folge hat. Wir schlagen CollectionLoRA vor, ein Multi-Teacher-On-Policy-Destillationsframework, das die Konzepte von bis zu 50 verschiedenen Effekt-LoRAs zusammen mit Fähigkeiten zur Generierung in wenigen Schritten in eine einzige LoRA destillieren kann. Dies löst das Problem der Merkmalsinterferenzen grundlegend und reduziert die Bereitstellungskosten erheblich. Im Einzelnen führt die Methode (i) einen probabilistischen Dual-Stream-Routing-Mechanismus ein, der es dem Modell ermöglicht, während des Trainings zufällig zwischen Datenquellen zu wechseln und so seine Generalisierung in unbekannten Szenarien effektiv zu verbessern; (ii) eine asymmetrische orthogonale Prompting-Strategie zur Konzepttrennung im Prompt-Raum; (iii) ein Grob-zu-Fein-Destillationsziel zur Minderung der Verteilungsdifferenz zwischen Lehrer- und Schülermodell. Umfangreiche Auswertungen zeigen, dass CollectionLoRA alle maßgeschneiderten Effekte und die Generierung in wenigen Schritten in eine einzige LoRA destilliert, den Bereitstellungsaufwand reduziert und gleichzeitig eine Konzepttreue erreicht, die mit unabhängig trainierten Lehrermodellen vergleichbar oder besser ist.

English

Customized image editing aims to equip pre-trained diffusion models with specific visual effects using limited paired data, typically via Low-Rank Adaptation (LoRA). As the number of desired effects grows, storing and dynamically loading numerous these effect LoRAs significantly increases deployment overhead. Furthermore, current pipelines typically cascade these effect LoRAs with acceleration modules for fast generation, which triggers severe parameter interference and results in concept bleeding and style degradation. We propose CollectionLoRA, a multi-teacher on-policy distillation framework capable of distilling the concepts of up to 50 different effect LoRAs along with few-step generation capabilities into a single LoRA. This fundamentally resolves the feature interference issue and significantly reduces deployment costs. Specifically, the method introduces (i) a Probabilistic Dual-Stream Routing mechanism that enables the model to randomly switch between data sources during training, effectively enhancing its generalization in unseen scenarios; (ii) an Asymmetric Orthogonal Prompting strategy to achieve concept isolation within the prompt space; (iii) a Coarse-to-Fine Distillation Objective to mitigate the distribution gap between the teacher and student models. Extensive evaluations show that CollectionLoRA distills all customized effects and few-step generation into a single LoRA, reducing deployment overhead while achieving concept fidelity comparable to or better than independently trained teacher models.