ChatPaper.aiChatPaper

ZePo : Stylisation de portraits en Zero-Shot avec un échantillonnage accéléré

ZePo: Zero-Shot Portrait Stylization with Faster Sampling

August 10, 2024
Auteurs: Jin Liu, Huaibo Huang, Jie Cao, Ran He
cs.AI

Résumé

Les modèles de génération d'images à partir de texte basés sur la diffusion ont considérablement fait progresser le domaine de la synthèse de contenu artistique. Cependant, les méthodes actuelles de stylisation de portraits nécessitent généralement soit un ajustement fin du modèle basé sur des exemples, soit l'utilisation de l'inversion DDIM pour ramener les images à l'espace de bruit, deux approches qui ralentissent substantiellement le processus de génération d'images. Pour surmonter ces limitations, cet article présente un cadre de stylisation de portraits sans inversion basé sur des modèles de diffusion, qui réalise la fusion des caractéristiques de contenu et de style en seulement quatre étapes d'échantillonnage. Nous avons observé que les modèles de cohérence latente utilisant la distillation de cohérence peuvent extraire efficacement des caractéristiques de cohérence représentatives à partir d'images bruitées. Pour mélanger les caractéristiques de cohérence extraites des images de contenu et de style, nous introduisons une technique de contrôle d'attention d'amélioration de style qui fusionne minutieusement les caractéristiques de contenu et de style dans l'espace d'attention de l'image cible. De plus, nous proposons une stratégie de fusion de caractéristiques pour amalgamer les caractéristiques redondantes dans les caractéristiques de cohérence, réduisant ainsi la charge computationnelle du contrôle d'attention. Des expériences approfondies ont validé l'efficacité de notre cadre proposé pour améliorer l'efficacité et la fidélité de la stylisation. Le code est disponible à l'adresse https://github.com/liujin112/ZePo.
English
Diffusion-based text-to-image generation models have significantly advanced the field of art content synthesis. However, current portrait stylization methods generally require either model fine-tuning based on examples or the employment of DDIM Inversion to revert images to noise space, both of which substantially decelerate the image generation process. To overcome these limitations, this paper presents an inversion-free portrait stylization framework based on diffusion models that accomplishes content and style feature fusion in merely four sampling steps. We observed that Latent Consistency Models employing consistency distillation can effectively extract representative Consistency Features from noisy images. To blend the Consistency Features extracted from both content and style images, we introduce a Style Enhancement Attention Control technique that meticulously merges content and style features within the attention space of the target image. Moreover, we propose a feature merging strategy to amalgamate redundant features in Consistency Features, thereby reducing the computational load of attention control. Extensive experiments have validated the effectiveness of our proposed framework in enhancing stylization efficiency and fidelity. The code is available at https://github.com/liujin112/ZePo.

Summary

AI-Generated Summary

PDF72November 28, 2024