In Stukken Samenstellen: Conceptvorming op Basis van Onderdelen met IP-Priors

Samenvatting

Geavanceerde generatieve modellen blinken uit in het synthetiseren van afbeeldingen, maar zijn vaak afhankelijk van tekstgebaseerde conditionering. Visuele ontwerpers werken echter vaak voorbij taal, waarbij ze direct inspiratie putten uit bestaande visuele elementen. In veel gevallen vertegenwoordigen deze elementen slechts fragmenten van een potentieel concept—zoals een uniek gestructureerde vleugel of een specifiek kapsel—die dienen als inspiratie voor de kunstenaar om te verkennen hoe deze creatief samengevoegd kunnen worden tot een coherent geheel. Met het oog op deze behoefte introduceren we een generatief raamwerk dat naadloos een gedeeltelijke set van door de gebruiker geleverde visuele componenten integreert in een coherente compositie, terwijl tegelijkertijd de ontbrekende delen worden gesamplet die nodig zijn om een plausibel en compleet concept te genereren. Onze aanpak bouwt voort op een krachtige en onderbenutte representatieruimte, geëxtraheerd uit IP-Adapter+, waarop we IP-Prior trainen, een lichtgewicht flow-matching model dat coherente composities synthetiseert op basis van domeinspecifieke priors, waardoor diverse en contextbewuste generaties mogelijk worden. Daarnaast presenteren we een LoRA-gebaseerde fine-tuning strategie die de promptnaleving in IP-Adapter+ voor een bepaalde taak aanzienlijk verbetert, waardoor de veelvoorkomende afweging tussen reconstructiekwaliteit en promptnaleving wordt aangepakt.

English

Advanced generative models excel at synthesizing images but often rely on text-based conditioning. Visual designers, however, often work beyond language, directly drawing inspiration from existing visual elements. In many cases, these elements represent only fragments of a potential concept-such as an uniquely structured wing, or a specific hairstyle-serving as inspiration for the artist to explore how they can come together creatively into a coherent whole. Recognizing this need, we introduce a generative framework that seamlessly integrates a partial set of user-provided visual components into a coherent composition while simultaneously sampling the missing parts needed to generate a plausible and complete concept. Our approach builds on a strong and underexplored representation space, extracted from IP-Adapter+, on which we train IP-Prior, a lightweight flow-matching model that synthesizes coherent compositions based on domain-specific priors, enabling diverse and context-aware generations. Additionally, we present a LoRA-based fine-tuning strategy that significantly improves prompt adherence in IP-Adapter+ for a given task, addressing its common trade-off between reconstruction quality and prompt adherence.

In Stukken Samenstellen: Conceptvorming op Basis van Onderdelen met IP-Priors

Piece it Together: Part-Based Concepting with IP-Priors

Samenvatting

Support