Junte as Peças: Conceituação Baseada em Partes com IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
Autores: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
Resumo
Modelos generativos avançados se destacam na síntese de imagens, mas frequentemente dependem de condicionamento baseado em texto. Designers visuais, no entanto, muitas vezes trabalham além da linguagem, inspirando-se diretamente em elementos visuais existentes. Em muitos casos, esses elementos representam apenas fragmentos de um conceito potencial—como uma asa de estrutura única ou um penteado específico—servindo de inspiração para o artista explorar como eles podem se unir criativamente em um todo coerente. Reconhecendo essa necessidade, introduzimos um framework generativo que integra de forma contínua um conjunto parcial de componentes visuais fornecidos pelo usuário em uma composição coerente, ao mesmo tempo em que amostra as partes ausentes necessárias para gerar um conceito plausível e completo. Nossa abordagem se baseia em um espaço de representação robusto e pouco explorado, extraído do IP-Adapter+, no qual treinamos o IP-Prior, um modelo leve de correspondência de fluxo que sintetiza composições coerentes com base em prioridades específicas do domínio, permitindo gerações diversas e contextualmente conscientes. Além disso, apresentamos uma estratégia de ajuste fino baseada em LoRA que melhora significativamente a aderência ao prompt no IP-Adapter+ para uma tarefa específica, abordando o equilíbrio comum entre qualidade de reconstrução e aderência ao prompt.
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.Summary
AI-Generated Summary