Adaptador Convolucional Eficiente com Orientação Textual para o Modelo de Difusão

Resumo

Apresentamos os Nexus Adapters, novos adaptadores eficientes guiados por texto para a estrutura baseada em difusão destinada à Geração Condicional com Preservação de Estrutura (SPCG). Recentemente, os métodos de preservação de estrutura alcançaram resultados promissores na geração condicional de imagens ao utilizar um modelo base para o condicionamento por *prompt* e um adaptador para a entrada estrutural, como esboços ou mapas de profundidade. Essas abordagens são altamente ineficientes e, por vezes, exigem tantos parâmetros no adaptador quanto na arquitetura base. Nem sempre é possível treinar o modelo, uma vez que o próprio modelo de difusão é custoso, e dobrar o número de parâmetros é altamente ineficiente. Nessas abordagens, o adaptador não tem conhecimento do *prompt* de entrada; portanto, é otimizado apenas para a entrada estrutural, mas não para o *prompt* de entrada. Para superar os desafios acima, propusemos dois adaptadores eficientes, Nexus Prime e Nexus Slim, que são guiados pelos *prompts* e pelas entradas estruturais. Cada Bloco Nexus incorpora mecanismos de *cross-attention* para permitir um condicionamento multimodal rico. Consequentemente, o adaptador proposto tem uma melhor compreensão do *prompt* de entrada, preservando a estrutura. Realizamos extensivos experimentos nos modelos propostos e demonstramos que o adaptador Nexus Prime melhora significativamente o desempenho, exigindo apenas 8 milhões de parâmetros adicionais em comparação com a linha de base, o T2I-Adapter. Além disso, também introduzimos um adaptador leve, o Nexus Slim, com 18 milhões de parâmetros a menos que o T2I-Adapter, que ainda assim alcançou resultados de última geração. Código: https://github.com/arya-domain/Nexus-Adapters

English

We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters

Adaptador Convolucional Eficiente com Orientação Textual para o Modelo de Difusão

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Resumo

Support