Zusammensetzen: Teilbasierte Konzeptentwicklung mit IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
Autoren: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
Zusammenfassung
Fortgeschrittene generative Modelle sind hervorragend in der Synthese von Bildern, verlassen sich jedoch oft auf textbasierte Konditionierung. Visuelle Designer arbeiten jedoch häufig jenseits der Sprache und lassen sich direkt von bestehenden visuellen Elementen inspirieren. In vielen Fällen repräsentieren diese Elemente nur Fragmente eines potenziellen Konzepts – wie ein einzigartig strukturierter Flügel oder eine spezifische Frisur – und dienen als Inspiration für den Künstler, um zu erkunden, wie sie kreativ zu einem kohärenten Ganzen zusammengeführt werden können. Um diesem Bedarf gerecht zu werden, stellen wir ein generatives Framework vor, das eine partielle Menge von benutzerbereitgestellten visuellen Komponenten nahtlos in eine kohärente Komposition integriert und gleichzeitig die fehlenden Teile abtastet, die benötigt werden, um ein plausibles und vollständiges Konzept zu generieren. Unser Ansatz baut auf einem starken und bisher wenig erforschten Repräsentationsraum auf, der aus IP-Adapter+ extrahiert wird, auf dem wir IP-Prior trainieren, ein leichtgewichtiges Flow-Matching-Modell, das kohärente Kompositionen basierend auf domänenspezifischen Priors synthetisiert und dadurch vielfältige und kontextbewusste Generationen ermöglicht. Zusätzlich präsentieren wir eine LoRA-basierte Feinabstimmungsstrategie, die die Prompt-Treue in IP-Adapter+ für eine bestimmte Aufgabe signifikant verbessert und damit den üblichen Kompromiss zwischen Rekonstruktionsqualität und Prompt-Treue adressiert.
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.Summary
AI-Generated Summary