ZePo : Stylisation de portraits en Zero-Shot avec un échantillonnage accéléré
ZePo: Zero-Shot Portrait Stylization with Faster Sampling
August 10, 2024
Auteurs: Jin Liu, Huaibo Huang, Jie Cao, Ran He
cs.AI
Résumé
Les modèles de génération d'images à partir de texte basés sur la diffusion ont considérablement fait progresser le domaine de la synthèse de contenu artistique. Cependant, les méthodes actuelles de stylisation de portraits nécessitent généralement soit un ajustement fin du modèle basé sur des exemples, soit l'utilisation de l'inversion DDIM pour ramener les images à l'espace de bruit, deux approches qui ralentissent substantiellement le processus de génération d'images. Pour surmonter ces limitations, cet article présente un cadre de stylisation de portraits sans inversion basé sur des modèles de diffusion, qui réalise la fusion des caractéristiques de contenu et de style en seulement quatre étapes d'échantillonnage. Nous avons observé que les modèles de cohérence latente utilisant la distillation de cohérence peuvent extraire efficacement des caractéristiques de cohérence représentatives à partir d'images bruitées. Pour mélanger les caractéristiques de cohérence extraites des images de contenu et de style, nous introduisons une technique de contrôle d'attention d'amélioration de style qui fusionne minutieusement les caractéristiques de contenu et de style dans l'espace d'attention de l'image cible. De plus, nous proposons une stratégie de fusion de caractéristiques pour amalgamer les caractéristiques redondantes dans les caractéristiques de cohérence, réduisant ainsi la charge computationnelle du contrôle d'attention. Des expériences approfondies ont validé l'efficacité de notre cadre proposé pour améliorer l'efficacité et la fidélité de la stylisation. Le code est disponible à l'adresse https://github.com/liujin112/ZePo.
English
Diffusion-based text-to-image generation models have significantly advanced
the field of art content synthesis. However, current portrait stylization
methods generally require either model fine-tuning based on examples or the
employment of DDIM Inversion to revert images to noise space, both of which
substantially decelerate the image generation process. To overcome these
limitations, this paper presents an inversion-free portrait stylization
framework based on diffusion models that accomplishes content and style feature
fusion in merely four sampling steps. We observed that Latent Consistency
Models employing consistency distillation can effectively extract
representative Consistency Features from noisy images. To blend the Consistency
Features extracted from both content and style images, we introduce a Style
Enhancement Attention Control technique that meticulously merges content and
style features within the attention space of the target image. Moreover, we
propose a feature merging strategy to amalgamate redundant features in
Consistency Features, thereby reducing the computational load of attention
control. Extensive experiments have validated the effectiveness of our proposed
framework in enhancing stylization efficiency and fidelity. The code is
available at https://github.com/liujin112/ZePo.Summary
AI-Generated Summary