Эффективный текстово-управляемый сверточный адаптер для диффузионной модели

Аннотация

Мы представляем Nexus Adapters — новые эффективные адаптеры с текстовым управлением для диффузионных моделей в задаче условной генерации с сохранением структуры (Structure Preserving Conditional Generation, SPCB). В последнее время методы сохранения структуры показали многообещающие результаты в условной генерации изображений, используя базовую модель для обработки текстового промпта и адаптер для структурного ввода, такого как эскизы или карты глубины. Однако эти подходы обладают низкой эффективностью и иногда требуют количества параметров в адаптере, сопоставимого с базовой архитектурой. Обучение такой модели не всегда возможно, поскольку сама диффузионная модель является ресурсоемкой, а удвоение параметров крайне неэффективно. Кроме того, в этих подходах адаптер не учитывает входной промпт, что делает его оптимальным только для структурного ввода, но не для текстового условия. Чтобы преодолеть указанные ограничения, мы предложили два эффективных адаптера, Nexus Prime и Slim, которые управляются как промптами, так и структурными входами. Каждый блок Nexus включает механизмы кросс-внимания для обеспечения богатого мультимодального conditioning. Таким образом, предложенный адаптер лучше понимает входной промпт, сохраняя при этом структуру. Мы провели обширные эксперименты с предложенными моделями и показали, что адаптер Nexus Prime значительно улучшает производительность, требуя всего 8 млн дополнительных параметров по сравнению с базовым T2I-Adapter. Кроме того, мы представили облегченный адаптер Nexus Slim, который имеет на 18 млн параметров меньше, чем T2I-Adapter, но при этом достигает state-of-the-art результатов. Код: https://github.com/arya-domain/Nexus-Adapters

English

We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters

Эффективный текстово-управляемый сверточный адаптер для диффузионной модели

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Аннотация

Support