ChatPaper.aiChatPaper

SPF-Portrait : Vers une personnalisation de portrait pure avec un réglage fin sans pollution sémantique

SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning

April 1, 2025
Auteurs: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng
cs.AI

Résumé

L'ajustement fin d'un modèle pré-entraîné de génération d'images à partir de texte (Text-to-Image, T2I) sur un ensemble de données de portraits personnalisés est la méthode dominante pour la personnalisation pilotée par texte des attributs de portrait. En raison de la pollution sémantique lors de l'ajustement fin, les méthodes existantes peinent à maintenir le comportement original du modèle et à réaliser un apprentissage incrémental tout en personnalisant les attributs cibles. Pour résoudre ce problème, nous proposons SPF-Portrait, une approche novatrice visant à comprendre purement les sémantiques personnalisées tout en éliminant la pollution sémantique dans la personnalisation de portraits pilotée par texte. Dans SPF-Portrait, nous proposons un pipeline à double voie qui introduit le modèle original comme référence pour la voie d'ajustement fin conventionnelle. Grâce à l'apprentissage contrastif, nous assurons l'adaptation aux attributs cibles et alignons intentionnellement les autres attributs non liés avec le portrait original. Nous introduisons une nouvelle Carte de Contrôle Fin Sémantique, qui représente les régions de réponse précises des sémantiques cibles, pour guider spatialement le processus d'alignement entre les voies contrastives. Ce processus d'alignement préserve non seulement efficacement les performances du modèle original, mais évite également un sur-alignement. De plus, nous proposons un nouveau mécanisme de renforcement de la réponse pour améliorer les performances des attributs cibles, tout en atténuant les écarts de représentation inhérents à la supervision directe intermodale. Des expériences approfondies démontrent que SPF-Portrait atteint des performances de pointe. Page web du projet : https://spf-portrait.github.io/SPF-Portrait/
English
Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait dataset is the mainstream method for text-driven customization of portrait attributes. Due to Semantic Pollution during fine-tuning, existing methods struggle to maintain the original model's behavior and achieve incremental learning while customizing target attributes. To address this issue, we propose SPF-Portrait, a pioneering work to purely understand customized semantics while eliminating semantic pollution in text-driven portrait customization. In our SPF-Portrait, we propose a dual-path pipeline that introduces the original model as a reference for the conventional fine-tuning path. Through contrastive learning, we ensure adaptation to target attributes and purposefully align other unrelated attributes with the original portrait. We introduce a novel Semantic-Aware Fine Control Map, which represents the precise response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. This alignment process not only effectively preserves the performance of the original model but also avoids over-alignment. Furthermore, we propose a novel response enhancement mechanism to reinforce the performance of target attributes, while mitigating representation discrepancy inherent in direct cross-modal supervision. Extensive experiments demonstrate that SPF-Portrait achieves state-of-the-art performance. Project webpage: https://spf-portrait.github.io/SPF-Portrait/

Summary

AI-Generated Summary

PDF42April 7, 2025