SPF-Portrait : Vers une personnalisation de portrait pure avec un réglage fin sans pollution sémantique
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
April 1, 2025
Auteurs: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng
cs.AI
Résumé
L'ajustement fin d'un modèle pré-entraîné de génération d'images à partir de texte (Text-to-Image, T2I) sur un ensemble de données de portraits personnalisés est la méthode dominante pour la personnalisation pilotée par texte des attributs de portrait. En raison de la pollution sémantique lors de l'ajustement fin, les méthodes existantes peinent à maintenir le comportement original du modèle et à réaliser un apprentissage incrémental tout en personnalisant les attributs cibles. Pour résoudre ce problème, nous proposons SPF-Portrait, une approche novatrice visant à comprendre purement les sémantiques personnalisées tout en éliminant la pollution sémantique dans la personnalisation de portraits pilotée par texte. Dans SPF-Portrait, nous proposons un pipeline à double voie qui introduit le modèle original comme référence pour la voie d'ajustement fin conventionnelle. Grâce à l'apprentissage contrastif, nous assurons l'adaptation aux attributs cibles et alignons intentionnellement les autres attributs non liés avec le portrait original. Nous introduisons une nouvelle Carte de Contrôle Fin Sémantique, qui représente les régions de réponse précises des sémantiques cibles, pour guider spatialement le processus d'alignement entre les voies contrastives. Ce processus d'alignement préserve non seulement efficacement les performances du modèle original, mais évite également un sur-alignement. De plus, nous proposons un nouveau mécanisme de renforcement de la réponse pour améliorer les performances des attributs cibles, tout en atténuant les écarts de représentation inhérents à la supervision directe intermodale. Des expériences approfondies démontrent que SPF-Portrait atteint des performances de pointe. Page web du projet : https://spf-portrait.github.io/SPF-Portrait/
English
Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait
dataset is the mainstream method for text-driven customization of portrait
attributes. Due to Semantic Pollution during fine-tuning, existing methods
struggle to maintain the original model's behavior and achieve incremental
learning while customizing target attributes. To address this issue, we propose
SPF-Portrait, a pioneering work to purely understand customized semantics while
eliminating semantic pollution in text-driven portrait customization. In our
SPF-Portrait, we propose a dual-path pipeline that introduces the original
model as a reference for the conventional fine-tuning path. Through contrastive
learning, we ensure adaptation to target attributes and purposefully align
other unrelated attributes with the original portrait. We introduce a novel
Semantic-Aware Fine Control Map, which represents the precise response regions
of the target semantics, to spatially guide the alignment process between the
contrastive paths. This alignment process not only effectively preserves the
performance of the original model but also avoids over-alignment. Furthermore,
we propose a novel response enhancement mechanism to reinforce the performance
of target attributes, while mitigating representation discrepancy inherent in
direct cross-modal supervision. Extensive experiments demonstrate that
SPF-Portrait achieves state-of-the-art performance. Project webpage:
https://spf-portrait.github.io/SPF-Portrait/Summary
AI-Generated Summary