Ensambla las piezas: Conceptualización basada en partes con IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
Autores: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
Resumen
Los modelos generativos avanzados sobresalen en la síntesis de imágenes, pero a menudo dependen de condicionamientos basados en texto. Sin embargo, los diseñadores visuales suelen trabajar más allá del lenguaje, inspirándose directamente en elementos visuales existentes. En muchos casos, estos elementos representan solo fragmentos de un concepto potencial—como un ala de estructura única o un peinado específico—que sirven de inspiración para que el artista explore cómo pueden unirse creativamente en un todo coherente. Reconociendo esta necesidad, presentamos un marco generativo que integra de manera fluida un conjunto parcial de componentes visuales proporcionados por el usuario en una composición coherente, mientras simultáneamente genera las partes faltantes necesarias para crear un concepto plausible y completo. Nuestro enfoque se basa en un espacio de representación sólido y poco explorado, extraído de IP-Adapter+, sobre el cual entrenamos IP-Prior, un modelo ligero de emparejamiento de flujo que sintetiza composiciones coherentes basadas en prioridades específicas del dominio, permitiendo generaciones diversas y conscientes del contexto. Además, presentamos una estrategia de ajuste fino basada en LoRA que mejora significativamente la adherencia a las indicaciones en IP-Adapter+ para una tarea dada, abordando su común equilibrio entre la calidad de reconstrucción y la adherencia a las indicaciones.
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.Summary
AI-Generated Summary