Adaptador Convolucional Guiado por Texto Eficiente para el Modelo de Difusión

Resumen

Presentamos los Nexus Adapters, unos novedosos adaptadores eficientes guiados por texto para el marco de trabajo basado en difusión destinado a la Generación Condicional con Preservación de Estructura (SPCG). Recientemente, los métodos de preservación de estructura han logrado resultados prometedores en la generación condicional de imágenes utilizando un modelo base para el condicionamiento mediante prompts y un adaptador para la entrada estructural, como bocetos o mapas de profundidad. Estos enfoques son altamente ineficientes y a veces requieren tantos parámetros en el adaptador como en la arquitectura base. No siempre es posible entrenar el modelo, ya que el modelo de difusión es en sí mismo costoso, y duplicar los parámetros es sumamente ineficiente. En estos enfoques, el adaptador no es consciente del prompt de entrada; por lo tanto, es óptimo solo para la entrada estructural pero no para el prompt de entrada. Para superar los desafíos anteriores, propusimos dos adaptadores eficientes, Nexus Prime y Slim, que están guiados por los prompts y las entradas estructurales. Cada Bloque Nexus incorpora mecanismos de atención cruzada para permitir un condicionamiento multimodal enriquecido. Por consiguiente, el adaptador propuesto comprende mejor el prompt de entrada mientras preserva la estructura. Realizamos extensos experimentos en los modelos propuestos y demostramos que el adaptador Nexus Prime mejora significativamente el rendimiento, requiriendo solo 8M parámetros adicionales en comparación con el baseline, T2I-Adapter. Además, también presentamos un adaptador ligero, Nexus Slim, con 18M parámetros menos que T2I-Adapter, que aun así logró resultados de vanguardia. Código: https://github.com/arya-domain/Nexus-Adapters

English

We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters

Adaptador Convolucional Guiado por Texto Eficiente para el Modelo de Difusión

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Resumen

Support