Assembler les pièces : Conceptualisation par parties avec IP-Priors

papers.abstract

Les modèles génératifs avancés excellent dans la synthèse d'images, mais reposent souvent sur un conditionnement basé sur le texte. Les concepteurs visuels, cependant, travaillent fréquemment au-delà du langage, s'inspirant directement d'éléments visuels existants. Dans de nombreux cas, ces éléments ne représentent que des fragments d'un concept potentiel—comme une aile à la structure unique ou une coiffure spécifique—servant d'inspiration pour que l'artiste explore comment ils peuvent s'assembler de manière créative en un ensemble cohérent. Conscients de ce besoin, nous introduisons un cadre génératif qui intègre de manière fluide un ensemble partiel de composants visuels fournis par l'utilisateur dans une composition cohérente, tout en échantillonnant les parties manquantes nécessaires pour générer un concept plausible et complet. Notre approche s'appuie sur un espace de représentation robuste et peu exploré, extrait de l'IP-Adapter+, sur lequel nous entraînons IP-Prior, un modèle léger de correspondance de flux qui synthétise des compositions cohérentes basées sur des a priori spécifiques au domaine, permettant des générations diversifiées et contextuellement adaptées. De plus, nous présentons une stratégie de fine-tuning basée sur LoRA qui améliore significativement l'adhérence aux prompts dans l'IP-Adapter+ pour une tâche donnée, abordant ainsi le compromis courant entre la qualité de reconstruction et l'adhérence aux prompts.

English

Advanced generative models excel at synthesizing images but often rely on text-based conditioning. Visual designers, however, often work beyond language, directly drawing inspiration from existing visual elements. In many cases, these elements represent only fragments of a potential concept-such as an uniquely structured wing, or a specific hairstyle-serving as inspiration for the artist to explore how they can come together creatively into a coherent whole. Recognizing this need, we introduce a generative framework that seamlessly integrates a partial set of user-provided visual components into a coherent composition while simultaneously sampling the missing parts needed to generate a plausible and complete concept. Our approach builds on a strong and underexplored representation space, extracted from IP-Adapter+, on which we train IP-Prior, a lightweight flow-matching model that synthesizes coherent compositions based on domain-specific priors, enabling diverse and context-aware generations. Additionally, we present a LoRA-based fine-tuning strategy that significantly improves prompt adherence in IP-Adapter+ for a given task, addressing its common trade-off between reconstruction quality and prompt adherence.

Assembler les pièces : Conceptualisation par parties avec IP-Priors

Piece it Together: Part-Based Concepting with IP-Priors

papers.abstract

Support