CollectionLoRA: Coletando 50 Efeitos em 1 LoRA via Destilação On-Policy com Múltiplos Professores

Resumo

A edição personalizada de imagens visa equipar modelos de difusão pré-treinados com efeitos visuais específicos utilizando dados pareados limitados, tipicamente por meio da Adaptação de Baixa Classificação (LoRA). À medida que o número de efeitos desejados aumenta, armazenar e carregar dinamicamente diversos LoRAs de efeito eleva significativamente o custo de implantação. Além disso, os pipelines atuais geralmente em cascata esses LoRAs de efeito com módulos de aceleração para geração rápida, o que desencadeia interferência severa de parâmetros, resultando em sangramento de conceitos e degradação de estilo. Propomos o CollectionLoRA, uma estrutura de destilação on-policy com múltiplos professores, capaz de destilar os conceitos de até 50 LoRAs de efeito diferentes, juntamente com capacidades de geração em poucos passos, em um único LoRA. Isso resolve fundamentalmente o problema de interferência de características e reduz significativamente os custos de implantação. Especificamente, o método introduz (i) um mecanismo de Roteamento Probabilístico de Fluxo Duplo que permite ao modelo alternar aleatoriamente entre fontes de dados durante o treinamento, melhorando efetivamente sua generalização em cenários não vistos; (ii) uma estratégia de Estimulação Ortogonal Assimétrica para alcançar o isolamento de conceitos dentro do espaço de prompts; (iii) um Objetivo de Destilação Grosseira a Fina para mitigar a lacuna de distribuição entre os modelos professor e aluno. Avaliações extensas mostram que o CollectionLoRA destila todos os efeitos personalizados e a geração em poucos passos em um único LoRA, reduzindo o custo de implantação enquanto alcança fidelidade de conceito comparável ou superior à dos modelos professores treinados de forma independente.

English

Customized image editing aims to equip pre-trained diffusion models with specific visual effects using limited paired data, typically via Low-Rank Adaptation (LoRA). As the number of desired effects grows, storing and dynamically loading numerous these effect LoRAs significantly increases deployment overhead. Furthermore, current pipelines typically cascade these effect LoRAs with acceleration modules for fast generation, which triggers severe parameter interference and results in concept bleeding and style degradation. We propose CollectionLoRA, a multi-teacher on-policy distillation framework capable of distilling the concepts of up to 50 different effect LoRAs along with few-step generation capabilities into a single LoRA. This fundamentally resolves the feature interference issue and significantly reduces deployment costs. Specifically, the method introduces (i) a Probabilistic Dual-Stream Routing mechanism that enables the model to randomly switch between data sources during training, effectively enhancing its generalization in unseen scenarios; (ii) an Asymmetric Orthogonal Prompting strategy to achieve concept isolation within the prompt space; (iii) a Coarse-to-Fine Distillation Objective to mitigate the distribution gap between the teacher and student models. Extensive evaluations show that CollectionLoRA distills all customized effects and few-step generation into a single LoRA, reducing deployment overhead while achieving concept fidelity comparable to or better than independently trained teacher models.