Unisci i Pezzi: Concettualizzazione Basata su Parti con IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
Autori: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
Abstract
I modelli generativi avanzati eccellono nella sintesi di immagini, ma spesso si basano su condizionamenti basati sul testo. Tuttavia, i designer visivi spesso lavorano al di là del linguaggio, traendo ispirazione direttamente da elementi visivi esistenti. In molti casi, questi elementi rappresentano solo frammenti di un potenziale concetto—come un'ala dalla struttura unica o un'acconciatura specifica—che servono come ispirazione per l'artista per esplorare come possano unirsi creativamente in un insieme coerente. Riconoscendo questa necessità, introduciamo un framework generativo che integra senza soluzione di continuità un insieme parziale di componenti visivi forniti dall'utente in una composizione coerente, campionando contemporaneamente le parti mancanti necessarie per generare un concetto plausibile e completo. Il nostro approccio si basa su uno spazio di rappresentazione forte e poco esplorato, estratto da IP-Adapter+, sul quale addestriamo IP-Prior, un modello leggero di flow-matching che sintetizza composizioni coerenti basate su prior specifici del dominio, consentendo generazioni diversificate e consapevoli del contesto. Inoltre, presentiamo una strategia di fine-tuning basata su LoRA che migliora significativamente l'aderenza ai prompt in IP-Adapter+ per un determinato compito, affrontando il comune compromesso tra qualità di ricostruzione e aderenza ai prompt.
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.