ChatPaper.aiChatPaper

InstantStyle-Plus : Transfert de style avec préservation du contenu dans la génération d'images à partir de texte

InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation

June 30, 2024
Auteurs: Haofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai
cs.AI

Résumé

Le transfert de style est un processus créatif visant à générer une image qui conserve l'essence de l'original tout en adoptant le style visuel d'une autre. Bien que les modèles de diffusion aient démontré une puissance générative impressionnante dans des applications personnalisées axées sur un sujet ou un style spécifique, les méthodes actuelles les plus avancées rencontrent encore des difficultés à atteindre un équilibre harmonieux entre la préservation du contenu et l'amélioration du style. Par exemple, amplifier l'influence du style peut souvent compromettre l'intégrité structurelle du contenu. Pour relever ces défis, nous décomposons la tâche de transfert de style en trois éléments clés : 1) le Style, axé sur les caractéristiques esthétiques de l'image ; 2) la Structure Spatiale, concernant l'agencement géométrique et la composition des éléments visuels ; et 3) le Contenu Sémantique, qui capture la signification conceptuelle de l'image. Guidés par ces principes, nous présentons InstantStyle-Plus, une approche qui privilégie l'intégrité du contenu original tout en intégrant harmonieusement le style cible. Plus précisément, notre méthode réalise l'injection de style via un processus efficace et léger, en s'appuyant sur le cadre innovant d'InstantStyle. Pour renforcer la préservation du contenu, nous amorçons le processus avec un bruit latent de contenu inversé et un ControlNet modulaire en tuiles pour préserver la disposition intrinsèque de l'image originale. Nous intégrons également un adaptateur sémantique global pour améliorer la fidélité du contenu sémantique. Pour éviter la dilution des informations de style, un extracteur de style est utilisé comme discriminateur pour fournir des indications supplémentaires sur le style. Les codes seront disponibles à l'adresse https://github.com/instantX-research/InstantStyle-Plus.
English
Style transfer is an inventive process designed to create an image that maintains the essence of the original while embracing the visual style of another. Although diffusion models have demonstrated impressive generative power in personalized subject-driven or style-driven applications, existing state-of-the-art methods still encounter difficulties in achieving a seamless balance between content preservation and style enhancement. For example, amplifying the style's influence can often undermine the structural integrity of the content. To address these challenges, we deconstruct the style transfer task into three core elements: 1) Style, focusing on the image's aesthetic characteristics; 2) Spatial Structure, concerning the geometric arrangement and composition of visual elements; and 3) Semantic Content, which captures the conceptual meaning of the image. Guided by these principles, we introduce InstantStyle-Plus, an approach that prioritizes the integrity of the original content while seamlessly integrating the target style. Specifically, our method accomplishes style injection through an efficient, lightweight process, utilizing the cutting-edge InstantStyle framework. To reinforce the content preservation, we initiate the process with an inverted content latent noise and a versatile plug-and-play tile ControlNet for preserving the original image's intrinsic layout. We also incorporate a global semantic adapter to enhance the semantic content's fidelity. To safeguard against the dilution of style information, a style extractor is employed as discriminator for providing supplementary style guidance. Codes will be available at https://github.com/instantX-research/InstantStyle-Plus.

Summary

AI-Generated Summary

PDF245November 28, 2024