SPF-Portrait: Rumo à Personalização Pura de Retratos com Ajuste Fino Livre de Poluição Semântica
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
April 1, 2025
Autores: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng
cs.AI
Resumo
O ajuste fino de um modelo pré-treinado de Texto para Imagem (T2I) em um conjunto de dados personalizado de retratos é o método predominante para a customização orientada por texto de atributos de retratos. Devido à Poluição Semântica durante o ajuste fino, os métodos existentes enfrentam dificuldades para manter o comportamento original do modelo e alcançar aprendizado incremental enquanto personalizam os atributos alvo. Para resolver esse problema, propomos o SPF-Portrait, um trabalho pioneiro que visa compreender puramente a semântica personalizada enquanto elimina a poluição semântica na customização de retratos orientada por texto. No nosso SPF-Portrait, propomos um pipeline de duplo caminho que introduz o modelo original como referência para o caminho convencional de ajuste fino. Por meio de aprendizado contrastivo, garantimos a adaptação aos atributos alvo e alinhamos intencionalmente outros atributos não relacionados ao retrato original. Introduzimos um novo Mapa de Controle Fino Semântico, que representa as regiões de resposta precisas da semântica alvo, para guiar espacialmente o processo de alinhamento entre os caminhos contrastivos. Esse processo de alinhamento não apenas preserva efetivamente o desempenho do modelo original, mas também evita o excesso de alinhamento. Além disso, propomos um novo mecanismo de reforço de resposta para fortalecer o desempenho dos atributos alvo, enquanto mitigamos a discrepância de representação inerente à supervisão direta intermodal. Experimentos extensivos demonstram que o SPF-Portrait alcança desempenho de ponta. Página do projeto: https://spf-portrait.github.io/SPF-Portrait/
English
Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait
dataset is the mainstream method for text-driven customization of portrait
attributes. Due to Semantic Pollution during fine-tuning, existing methods
struggle to maintain the original model's behavior and achieve incremental
learning while customizing target attributes. To address this issue, we propose
SPF-Portrait, a pioneering work to purely understand customized semantics while
eliminating semantic pollution in text-driven portrait customization. In our
SPF-Portrait, we propose a dual-path pipeline that introduces the original
model as a reference for the conventional fine-tuning path. Through contrastive
learning, we ensure adaptation to target attributes and purposefully align
other unrelated attributes with the original portrait. We introduce a novel
Semantic-Aware Fine Control Map, which represents the precise response regions
of the target semantics, to spatially guide the alignment process between the
contrastive paths. This alignment process not only effectively preserves the
performance of the original model but also avoids over-alignment. Furthermore,
we propose a novel response enhancement mechanism to reinforce the performance
of target attributes, while mitigating representation discrepancy inherent in
direct cross-modal supervision. Extensive experiments demonstrate that
SPF-Portrait achieves state-of-the-art performance. Project webpage:
https://spf-portrait.github.io/SPF-Portrait/Summary
AI-Generated Summary