CollectionLoRA: Recopilando 50 efectos en un solo LoRA mediante destilación on-policy con múltiples profesores

Resumen

La edición de imágenes personalizada tiene como objetivo dotar a los modelos de difusión preentrenados de efectos visuales específicos utilizando datos emparejados limitados, típicamente mediante la Adaptación de Bajo Rango (LoRA). A medida que aumenta el número de efectos deseados, almacenar y cargar dinámicamente numerosos LoRAs de efectos incrementa significativamente la sobrecarga de implementación. Además, los pipelines actuales suelen concatenar estos LoRAs de efectos con módulos de aceleración para la generación rápida, lo que desencadena una grave interferencia de parámetros y resulta en sangrado de conceptos y degradación del estilo. Proponemos CollectionLoRA, un marco de destilación on-policy con múltiples maestros capaz de destilar los conceptos de hasta 50 LoRAs de efectos diferentes, junto con capacidades de generación en pocos pasos, en un solo LoRA. Esto resuelve fundamentalmente el problema de interferencia de características y reduce significativamente los costos de implementación. Específicamente, el método introduce (i) un mecanismo de Enrutamiento Probabilístico de Flujo Dual que permite al modelo cambiar aleatoriamente entre fuentes de datos durante el entrenamiento, mejorando efectivamente su generalización en escenarios no vistos; (ii) una estrategia de Indicación Ortogonal Asimétrica para lograr el aislamiento de conceptos dentro del espacio de indicaciones; (iii) un Objetivo de Destilación de Grueso a Fino para mitigar la brecha de distribución entre los modelos maestro y estudiante. Evaluaciones exhaustivas muestran que CollectionLoRA destila todos los efectos personalizados y la generación en pocos pasos en un solo LoRA, reduciendo la sobrecarga de implementación mientras logra una fidelidad de concepto comparable o superior a la de los modelos maestros entrenados de forma independiente.

English

Customized image editing aims to equip pre-trained diffusion models with specific visual effects using limited paired data, typically via Low-Rank Adaptation (LoRA). As the number of desired effects grows, storing and dynamically loading numerous these effect LoRAs significantly increases deployment overhead. Furthermore, current pipelines typically cascade these effect LoRAs with acceleration modules for fast generation, which triggers severe parameter interference and results in concept bleeding and style degradation. We propose CollectionLoRA, a multi-teacher on-policy distillation framework capable of distilling the concepts of up to 50 different effect LoRAs along with few-step generation capabilities into a single LoRA. This fundamentally resolves the feature interference issue and significantly reduces deployment costs. Specifically, the method introduces (i) a Probabilistic Dual-Stream Routing mechanism that enables the model to randomly switch between data sources during training, effectively enhancing its generalization in unseen scenarios; (ii) an Asymmetric Orthogonal Prompting strategy to achieve concept isolation within the prompt space; (iii) a Coarse-to-Fine Distillation Objective to mitigate the distribution gap between the teacher and student models. Extensive evaluations show that CollectionLoRA distills all customized effects and few-step generation into a single LoRA, reducing deployment overhead while achieving concept fidelity comparable to or better than independently trained teacher models.