Unisci i Pezzi: Concettualizzazione Basata su Parti con IP-Priors

Abstract

I modelli generativi avanzati eccellono nella sintesi di immagini, ma spesso si basano su condizionamenti basati sul testo. Tuttavia, i designer visivi spesso lavorano al di là del linguaggio, traendo ispirazione direttamente da elementi visivi esistenti. In molti casi, questi elementi rappresentano solo frammenti di un potenziale concetto—come un'ala dalla struttura unica o un'acconciatura specifica—che servono come ispirazione per l'artista per esplorare come possano unirsi creativamente in un insieme coerente. Riconoscendo questa necessità, introduciamo un framework generativo che integra senza soluzione di continuità un insieme parziale di componenti visivi forniti dall'utente in una composizione coerente, campionando contemporaneamente le parti mancanti necessarie per generare un concetto plausibile e completo. Il nostro approccio si basa su uno spazio di rappresentazione forte e poco esplorato, estratto da IP-Adapter+, sul quale addestriamo IP-Prior, un modello leggero di flow-matching che sintetizza composizioni coerenti basate su prior specifici del dominio, consentendo generazioni diversificate e consapevoli del contesto. Inoltre, presentiamo una strategia di fine-tuning basata su LoRA che migliora significativamente l'aderenza ai prompt in IP-Adapter+ per un determinato compito, affrontando il comune compromesso tra qualità di ricostruzione e aderenza ai prompt.

English

Advanced generative models excel at synthesizing images but often rely on text-based conditioning. Visual designers, however, often work beyond language, directly drawing inspiration from existing visual elements. In many cases, these elements represent only fragments of a potential concept-such as an uniquely structured wing, or a specific hairstyle-serving as inspiration for the artist to explore how they can come together creatively into a coherent whole. Recognizing this need, we introduce a generative framework that seamlessly integrates a partial set of user-provided visual components into a coherent composition while simultaneously sampling the missing parts needed to generate a plausible and complete concept. Our approach builds on a strong and underexplored representation space, extracted from IP-Adapter+, on which we train IP-Prior, a lightweight flow-matching model that synthesizes coherent compositions based on domain-specific priors, enabling diverse and context-aware generations. Additionally, we present a LoRA-based fine-tuning strategy that significantly improves prompt adherence in IP-Adapter+ for a given task, addressing its common trade-off between reconstruction quality and prompt adherence.

Unisci i Pezzi: Concettualizzazione Basata su Parti con IP-Priors

Piece it Together: Part-Based Concepting with IP-Priors

Abstract

Support