CollectionLoRA: сбор 50 эффектов в одном LoRA с помощью многоучительской дистилляции на политике

Аннотация

Настраиваемое редактирование изображений направлено на наделение предобученных диффузионных моделей определёнными визуальными эффектами с использованием ограниченного набора парных данных, обычно с помощью адаптации низкого ранга (Low-Rank Adaptation, LoRA). С ростом числа желаемых эффектов хранение и динамическая загрузка многочисленных таких эффект-модулей LoRA значительно увеличивает эксплуатационные накладные расходы. Кроме того, современные конвейеры обычно каскадно объединяют эти эффект-модули LoRA с модулями ускорения для быстрой генерации, что приводит к серьёзной интерференции параметров и вызывает смешивание концепций и деградацию стиля. Мы предлагаем CollectionLoRA — многоучительскую дистилляционную среду на основе текущей стратегии, способную дистиллировать концепции до 50 различных эффект-модулей LoRA вместе с возможностями генерации за несколько шагов в один модуль LoRA. Это принципиально решает проблему интерференции признаков и значительно снижает затраты на развёртывание. В частности, метод включает: (i) механизм Вероятностной двухпотоковой маршрутизации, позволяющий модели случайным образом переключаться между источниками данных во время обучения, что эффективно повышает её способность к обобщению в невиданных ранее сценариях; (ii) стратегию Асимметричного ортогонального промптирования для изоляции концепций в пространстве подсказок; (iii) Цель дистилляции от грубого к точному для уменьшения разрыва в распределении между моделями-учителями и моделью-учеником. Обширные оценки показывают, что CollectionLoRA дистиллирует все настраиваемые эффекты и возможность генерации за несколько шагов в один модуль LoRA, снижая накладные расходы развёртывания, достигая при этом точности воспроизведения концепций, сопоставимой с независимо обученными моделями-учителями или превосходящей их.

English

Customized image editing aims to equip pre-trained diffusion models with specific visual effects using limited paired data, typically via Low-Rank Adaptation (LoRA). As the number of desired effects grows, storing and dynamically loading numerous these effect LoRAs significantly increases deployment overhead. Furthermore, current pipelines typically cascade these effect LoRAs with acceleration modules for fast generation, which triggers severe parameter interference and results in concept bleeding and style degradation. We propose CollectionLoRA, a multi-teacher on-policy distillation framework capable of distilling the concepts of up to 50 different effect LoRAs along with few-step generation capabilities into a single LoRA. This fundamentally resolves the feature interference issue and significantly reduces deployment costs. Specifically, the method introduces (i) a Probabilistic Dual-Stream Routing mechanism that enables the model to randomly switch between data sources during training, effectively enhancing its generalization in unseen scenarios; (ii) an Asymmetric Orthogonal Prompting strategy to achieve concept isolation within the prompt space; (iii) a Coarse-to-Fine Distillation Objective to mitigate the distribution gap between the teacher and student models. Extensive evaluations show that CollectionLoRA distills all customized effects and few-step generation into a single LoRA, reducing deployment overhead while achieving concept fidelity comparable to or better than independently trained teacher models.