In Stukken Samenstellen: Conceptvorming op Basis van Onderdelen met IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
Auteurs: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
Samenvatting
Geavanceerde generatieve modellen blinken uit in het synthetiseren van afbeeldingen, maar zijn vaak afhankelijk van tekstgebaseerde conditionering. Visuele ontwerpers werken echter vaak voorbij taal, waarbij ze direct inspiratie putten uit bestaande visuele elementen. In veel gevallen vertegenwoordigen deze elementen slechts fragmenten van een potentieel concept—zoals een uniek gestructureerde vleugel of een specifiek kapsel—die dienen als inspiratie voor de kunstenaar om te verkennen hoe deze creatief samengevoegd kunnen worden tot een coherent geheel. Met het oog op deze behoefte introduceren we een generatief raamwerk dat naadloos een gedeeltelijke set van door de gebruiker geleverde visuele componenten integreert in een coherente compositie, terwijl tegelijkertijd de ontbrekende delen worden gesamplet die nodig zijn om een plausibel en compleet concept te genereren. Onze aanpak bouwt voort op een krachtige en onderbenutte representatieruimte, geëxtraheerd uit IP-Adapter+, waarop we IP-Prior trainen, een lichtgewicht flow-matching model dat coherente composities synthetiseert op basis van domeinspecifieke priors, waardoor diverse en contextbewuste generaties mogelijk worden. Daarnaast presenteren we een LoRA-gebaseerde fine-tuning strategie die de promptnaleving in IP-Adapter+ voor een bepaalde taak aanzienlijk verbetert, waardoor de veelvoorkomende afweging tussen reconstructiekwaliteit en promptnaleving wordt aangepakt.
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.Summary
AI-Generated Summary