Assembler les pièces : Conceptualisation par parties avec IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
Auteurs: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
Résumé
Les modèles génératifs avancés excellent dans la synthèse d'images, mais reposent souvent sur un conditionnement basé sur le texte. Les concepteurs visuels, cependant, travaillent fréquemment au-delà du langage, s'inspirant directement d'éléments visuels existants. Dans de nombreux cas, ces éléments ne représentent que des fragments d'un concept potentiel—comme une aile à la structure unique ou une coiffure spécifique—servant d'inspiration pour que l'artiste explore comment ils peuvent s'assembler de manière créative en un ensemble cohérent. Conscients de ce besoin, nous introduisons un cadre génératif qui intègre de manière fluide un ensemble partiel de composants visuels fournis par l'utilisateur dans une composition cohérente, tout en échantillonnant les parties manquantes nécessaires pour générer un concept plausible et complet. Notre approche s'appuie sur un espace de représentation robuste et peu exploré, extrait de l'IP-Adapter+, sur lequel nous entraînons IP-Prior, un modèle léger de correspondance de flux qui synthétise des compositions cohérentes basées sur des a priori spécifiques au domaine, permettant des générations diversifiées et contextuellement adaptées. De plus, nous présentons une stratégie de fine-tuning basée sur LoRA qui améliore significativement l'adhérence aux prompts dans l'IP-Adapter+ pour une tâche donnée, abordant ainsi le compromis courant entre la qualité de reconstruction et l'adhérence aux prompts.
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.Summary
AI-Generated Summary