InstantStyle-Plus: テキストから画像生成におけるコンテンツ保持を伴うスタイル転送
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation
June 30, 2024
著者: Haofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai
cs.AI
要旨
スタイル転写は、元の画像の本質を保ちつつ、別の視覚スタイルを取り入れた画像を作成する創造的なプロセスです。拡散モデルは、個別の被写体やスタイルに基づくアプリケーションにおいて印象的な生成能力を示していますが、既存の最先端手法では、コンテンツの保存とスタイルの強化の間のシームレスなバランスを達成するのに依然として困難が生じています。例えば、スタイルの影響を強めると、コンテンツの構造的整合性が損なわれることがよくあります。これらの課題に対処するため、我々はスタイル転写タスクを3つの核心要素に分解します:1)スタイル、画像の美的特性に焦点を当てる;2)空間構造、視覚要素の幾何学的配置と構成に関わる;3)セマンティックコンテンツ、画像の概念的意味を捉える。これらの原則に基づき、我々はInstantStyle-Plusを導入します。このアプローチは、元のコンテンツの整合性を優先しつつ、ターゲットスタイルをシームレスに統合します。具体的には、我々の手法は、最先端のInstantStyleフレームワークを活用し、効率的で軽量なプロセスを通じてスタイル注入を実現します。コンテンツ保存を強化するため、プロセスを反転したコンテンツ潜在ノイズと、元の画像の固有のレイアウトを保存するための汎用プラグアンドプレイタイルControlNetで開始します。また、セマンティックコンテンツの忠実度を高めるために、グローバルセマンティックアダプターを組み込みます。スタイル情報の希釈を防ぐため、スタイル抽出器を判別器として使用し、補助的なスタイルガイダンスを提供します。コードはhttps://github.com/instantX-research/InstantStyle-Plusで公開されます。
English
Style transfer is an inventive process designed to create an image that
maintains the essence of the original while embracing the visual style of
another. Although diffusion models have demonstrated impressive generative
power in personalized subject-driven or style-driven applications, existing
state-of-the-art methods still encounter difficulties in achieving a seamless
balance between content preservation and style enhancement. For example,
amplifying the style's influence can often undermine the structural integrity
of the content. To address these challenges, we deconstruct the style transfer
task into three core elements: 1) Style, focusing on the image's aesthetic
characteristics; 2) Spatial Structure, concerning the geometric arrangement and
composition of visual elements; and 3) Semantic Content, which captures the
conceptual meaning of the image. Guided by these principles, we introduce
InstantStyle-Plus, an approach that prioritizes the integrity of the original
content while seamlessly integrating the target style. Specifically, our method
accomplishes style injection through an efficient, lightweight process,
utilizing the cutting-edge InstantStyle framework. To reinforce the content
preservation, we initiate the process with an inverted content latent noise and
a versatile plug-and-play tile ControlNet for preserving the original image's
intrinsic layout. We also incorporate a global semantic adapter to enhance the
semantic content's fidelity. To safeguard against the dilution of style
information, a style extractor is employed as discriminator for providing
supplementary style guidance. Codes will be available at
https://github.com/instantX-research/InstantStyle-Plus.Summary
AI-Generated Summary