ピースを組み立てる:IP-Priorsを用いたパーツベースの概念化
Piece it Together: Part-Based Concepting with IP-Priors
March 13, 2025
著者: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
cs.AI
要旨
高度な生成モデルは画像の合成において優れた性能を発揮しますが、しばしばテキストベースの条件付けに依存しています。しかし、ビジュアルデザイナーは言語を超えて作業し、既存の視覚要素から直接インスピレーションを得ることが多いです。多くの場合、これらの要素は潜在的なコンセプトの断片、例えば独特な構造の翼や特定のヘアスタイルなどを表しており、それらがどのように創造的に統合されて一貫性のある全体を形成するかを探るためのインスピレーションとして機能します。このニーズを認識し、我々はユーザーが提供した視覚要素の一部をシームレスに統合し、同時に欠落している部分をサンプリングして、説得力のある完全なコンセプトを生成するフレームワークを提案します。我々のアプローチは、IP-Adapter+から抽出された強力で未開拓の表現空間に基づいており、その上でIP-Priorという軽量なフローマッチングモデルを訓練します。このモデルは、ドメイン固有の事前知識に基づいて一貫性のある構図を合成し、多様で文脈を考慮した生成を可能にします。さらに、特定のタスクにおいてIP-Adapter+のプロンプト遵守性を大幅に改善するLoRAベースのファインチューニング戦略を提示し、再構築品質とプロンプト遵守性の間の一般的なトレードオフに対処します。
English
Advanced generative models excel at synthesizing images but often rely on
text-based conditioning. Visual designers, however, often work beyond language,
directly drawing inspiration from existing visual elements. In many cases,
these elements represent only fragments of a potential concept-such as an
uniquely structured wing, or a specific hairstyle-serving as inspiration for
the artist to explore how they can come together creatively into a coherent
whole. Recognizing this need, we introduce a generative framework that
seamlessly integrates a partial set of user-provided visual components into a
coherent composition while simultaneously sampling the missing parts needed to
generate a plausible and complete concept. Our approach builds on a strong and
underexplored representation space, extracted from IP-Adapter+, on which we
train IP-Prior, a lightweight flow-matching model that synthesizes coherent
compositions based on domain-specific priors, enabling diverse and
context-aware generations. Additionally, we present a LoRA-based fine-tuning
strategy that significantly improves prompt adherence in IP-Adapter+ for a
given task, addressing its common trade-off between reconstruction quality and
prompt adherence.Summary
AI-Generated Summary