InstantStyle-Plus : Transfert de style avec préservation du contenu dans la génération d'images à partir de texte
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation
June 30, 2024
Auteurs: Haofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai
cs.AI
Résumé
Le transfert de style est un processus créatif visant à générer une image qui conserve l'essence de l'original tout en adoptant le style visuel d'une autre. Bien que les modèles de diffusion aient démontré une puissance générative impressionnante dans des applications personnalisées axées sur un sujet ou un style spécifique, les méthodes actuelles les plus avancées rencontrent encore des difficultés à atteindre un équilibre harmonieux entre la préservation du contenu et l'amélioration du style. Par exemple, amplifier l'influence du style peut souvent compromettre l'intégrité structurelle du contenu. Pour relever ces défis, nous décomposons la tâche de transfert de style en trois éléments clés : 1) le Style, axé sur les caractéristiques esthétiques de l'image ; 2) la Structure Spatiale, concernant l'agencement géométrique et la composition des éléments visuels ; et 3) le Contenu Sémantique, qui capture la signification conceptuelle de l'image. Guidés par ces principes, nous présentons InstantStyle-Plus, une approche qui privilégie l'intégrité du contenu original tout en intégrant harmonieusement le style cible. Plus précisément, notre méthode réalise l'injection de style via un processus efficace et léger, en s'appuyant sur le cadre innovant d'InstantStyle. Pour renforcer la préservation du contenu, nous amorçons le processus avec un bruit latent de contenu inversé et un ControlNet modulaire en tuiles pour préserver la disposition intrinsèque de l'image originale. Nous intégrons également un adaptateur sémantique global pour améliorer la fidélité du contenu sémantique. Pour éviter la dilution des informations de style, un extracteur de style est utilisé comme discriminateur pour fournir des indications supplémentaires sur le style. Les codes seront disponibles à l'adresse https://github.com/instantX-research/InstantStyle-Plus.
English
Style transfer is an inventive process designed to create an image that
maintains the essence of the original while embracing the visual style of
another. Although diffusion models have demonstrated impressive generative
power in personalized subject-driven or style-driven applications, existing
state-of-the-art methods still encounter difficulties in achieving a seamless
balance between content preservation and style enhancement. For example,
amplifying the style's influence can often undermine the structural integrity
of the content. To address these challenges, we deconstruct the style transfer
task into three core elements: 1) Style, focusing on the image's aesthetic
characteristics; 2) Spatial Structure, concerning the geometric arrangement and
composition of visual elements; and 3) Semantic Content, which captures the
conceptual meaning of the image. Guided by these principles, we introduce
InstantStyle-Plus, an approach that prioritizes the integrity of the original
content while seamlessly integrating the target style. Specifically, our method
accomplishes style injection through an efficient, lightweight process,
utilizing the cutting-edge InstantStyle framework. To reinforce the content
preservation, we initiate the process with an inverted content latent noise and
a versatile plug-and-play tile ControlNet for preserving the original image's
intrinsic layout. We also incorporate a global semantic adapter to enhance the
semantic content's fidelity. To safeguard against the dilution of style
information, a style extractor is employed as discriminator for providing
supplementary style guidance. Codes will be available at
https://github.com/instantX-research/InstantStyle-Plus.Summary
AI-Generated Summary