ChatPaper.aiChatPaper

Собери воедино: концептуализация на основе частей с использованием IP-приоров

Piece it Together: Part-Based Concepting with IP-Priors

March 13, 2025
Авторы: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI

Аннотация

Продвинутые генеративные модели преуспевают в синтезе изображений, но часто полагаются на текстовые условия. Однако визуальные дизайнеры часто работают за пределами языка, черпая вдохновение непосредственно из существующих визуальных элементов. Во многих случаях эти элементы представляют собой лишь фрагменты потенциальной концепции — например, уникально структурированное крыло или определённая причёска, — которые служат источником вдохновения для художника, чтобы исследовать, как они могут творчески объединиться в целостное произведение. Осознавая эту потребность, мы представляем генеративную структуру, которая бесшовно интегрирует частичный набор визуальных компонентов, предоставленных пользователем, в целостную композицию, одновременно синтезируя недостающие части, необходимые для создания правдоподобного и завершённого концепта. Наш подход основывается на мощном и малоизученном пространстве представлений, извлечённом из IP-Adapter+, на котором мы обучаем IP-Prior — лёгкую модель согласования потоков, которая синтезирует целостные композиции на основе доменно-специфических априорных данных, обеспечивая разнообразные и контекстно-осознанные генерации. Кроме того, мы представляем стратегию тонкой настройки на основе LoRA, которая значительно улучшает соответствие запросам в IP-Adapter+ для конкретной задачи, устраняя типичный компромисс между качеством реконструкции и соответствием запросам.
English
Advanced generative models excel at synthesizing images but often rely on text-based conditioning. Visual designers, however, often work beyond language, directly drawing inspiration from existing visual elements. In many cases, these elements represent only fragments of a potential concept-such as an uniquely structured wing, or a specific hairstyle-serving as inspiration for the artist to explore how they can come together creatively into a coherent whole. Recognizing this need, we introduce a generative framework that seamlessly integrates a partial set of user-provided visual components into a coherent composition while simultaneously sampling the missing parts needed to generate a plausible and complete concept. Our approach builds on a strong and underexplored representation space, extracted from IP-Adapter+, on which we train IP-Prior, a lightweight flow-matching model that synthesizes coherent compositions based on domain-specific priors, enabling diverse and context-aware generations. Additionally, we present a LoRA-based fine-tuning strategy that significantly improves prompt adherence in IP-Adapter+ for a given task, addressing its common trade-off between reconstruction quality and prompt adherence.

Summary

AI-Generated Summary

PDF82March 14, 2025