SPF-Portrait: Rumo à Personalização Pura de Retratos com Ajuste Fino Livre de Poluição Semântica

Resumo

O ajuste fino de um modelo pré-treinado de Texto para Imagem (T2I) em um conjunto de dados personalizado de retratos é o método predominante para a customização orientada por texto de atributos de retratos. Devido à Poluição Semântica durante o ajuste fino, os métodos existentes enfrentam dificuldades para manter o comportamento original do modelo e alcançar aprendizado incremental enquanto personalizam os atributos alvo. Para resolver esse problema, propomos o SPF-Portrait, um trabalho pioneiro que visa compreender puramente a semântica personalizada enquanto elimina a poluição semântica na customização de retratos orientada por texto. No nosso SPF-Portrait, propomos um pipeline de duplo caminho que introduz o modelo original como referência para o caminho convencional de ajuste fino. Por meio de aprendizado contrastivo, garantimos a adaptação aos atributos alvo e alinhamos intencionalmente outros atributos não relacionados ao retrato original. Introduzimos um novo Mapa de Controle Fino Semântico, que representa as regiões de resposta precisas da semântica alvo, para guiar espacialmente o processo de alinhamento entre os caminhos contrastivos. Esse processo de alinhamento não apenas preserva efetivamente o desempenho do modelo original, mas também evita o excesso de alinhamento. Além disso, propomos um novo mecanismo de reforço de resposta para fortalecer o desempenho dos atributos alvo, enquanto mitigamos a discrepância de representação inerente à supervisão direta intermodal. Experimentos extensivos demonstram que o SPF-Portrait alcança desempenho de ponta. Página do projeto: https://spf-portrait.github.io/SPF-Portrait/

English

Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait dataset is the mainstream method for text-driven customization of portrait attributes. Due to Semantic Pollution during fine-tuning, existing methods struggle to maintain the original model's behavior and achieve incremental learning while customizing target attributes. To address this issue, we propose SPF-Portrait, a pioneering work to purely understand customized semantics while eliminating semantic pollution in text-driven portrait customization. In our SPF-Portrait, we propose a dual-path pipeline that introduces the original model as a reference for the conventional fine-tuning path. Through contrastive learning, we ensure adaptation to target attributes and purposefully align other unrelated attributes with the original portrait. We introduce a novel Semantic-Aware Fine Control Map, which represents the precise response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. This alignment process not only effectively preserves the performance of the original model but also avoids over-alignment. Furthermore, we propose a novel response enhancement mechanism to reinforce the performance of target attributes, while mitigating representation discrepancy inherent in direct cross-modal supervision. Extensive experiments demonstrate that SPF-Portrait achieves state-of-the-art performance. Project webpage: https://spf-portrait.github.io/SPF-Portrait/

SPF-Portrait: Rumo à Personalização Pura de Retratos com Ajuste Fino Livre de Poluição Semântica

SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning

Resumo

Summary

Support

Support