Adaptateur Convolutionnel Guidé par Texte Efficace pour le Modèle de Diffusion

Résumé

Nous présentons les Nexus Adapters, des adaptateurs efficaces guidés par texte, novateurs, pour le cadre basé sur la diffusion dédié à la Génération Conditionnelle Préservant la Structure (SPCG). Récemment, les méthodes de préservation de la structure ont obtenu des résultats prometteurs en génération d'images conditionnelle en utilisant un modèle de base pour le conditionnement par prompt et un adaptateur pour l'entrée structurelle, telle que des esquisses ou des cartes de profondeur. Ces approches sont très inefficaces et nécessitent parfois autant de paramètres dans l'adaptateur que l'architecture de base. Il n'est pas toujours possible d'entraîner le modèle, le modèle de diffusion étant déjà coûteux lui-même, et doubler le nombre de paramètres est très inefficace. Dans ces approches, l'adaptateur n'a pas connaissance du prompt d'entrée ; il est donc optimal uniquement pour l'entrée structurelle mais pas pour le prompt d'entrée. Pour surmonter ces défis, nous avons proposé deux adaptateurs efficaces, Nexus Prime et Slim, qui sont guidés à la fois par les prompts et les entrées structurelles. Chaque Bloc Nexus intègre des mécanismes d'attention croisée pour permettre un conditionnement multimodal riche. Ainsi, l'adaptateur proposé comprend mieux le prompt d'entrée tout en préservant la structure. Nous avons mené des expériences approfondies sur les modèles proposés et démontré que l'adaptateur Nexus Prime améliore significativement les performances, ne nécessitant que 8 millions de paramètres supplémentaires par rapport à la baseline, T2I-Adapter. De plus, nous avons également introduit un adaptateur léger, Nexus Slim, avec 18 millions de paramètres de moins que le T2I-Adapter, qui obtient tout de même des résultats à l'état de l'art. Code : https://github.com/arya-domain/Nexus-Adapters

English

We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters

Adaptateur Convolutionnel Guidé par Texte Efficace pour le Modèle de Diffusion

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Résumé

Support