SPF-Portrait: 의미적 오염 없는 미세 조정을 통한 순수 초상화 맞춤화
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
April 1, 2025
저자: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng
cs.AI
초록
사전 학습된 텍스트-이미지(T2I) 모델을 맞춤형 초상화 데이터셋에 미세 조정하는 것은 초상화 속성을 텍스트 기반으로 커스터마이징하는 주류 방법입니다. 그러나 미세 조정 과정에서 발생하는 의미 오염(Semantic Pollution)으로 인해, 기존 방법들은 원본 모델의 동작을 유지하고 목표 속성을 커스터마이징하면서 점진적 학습을 달성하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 텍스트 기반 초상화 커스터마이징에서 의미 오염을 제거하면서 순수하게 커스터마이즈된 의미를 이해하는 선구적인 작업인 SPF-Portrait를 제안합니다. SPF-Portrait에서는 기존의 미세 조정 경로에 원본 모델을 참조로 도입하는 이중 경로 파이프라인을 제안합니다. 대조 학습(contrastive learning)을 통해 목표 속성에 적응하고, 다른 관련 없는 속성들은 의도적으로 원본 초상화와 정렬합니다. 또한, 목표 의미의 정확한 반응 영역을 나타내는 새로운 의미 인식 미세 제어 맵(Semantic-Aware Fine Control Map)을 도입하여 대조 경로 간의 정렬 과정을 공간적으로 안내합니다. 이 정렬 과정은 원본 모델의 성능을 효과적으로 보존할 뿐만 아니라 과도한 정렬을 방지합니다. 더 나아가, 직접적인 교차 모드 감독에서 내재된 표현 불일치를 완화하면서 목표 속성의 성능을 강화하기 위한 새로운 반응 강화 메커니즘을 제안합니다. 광범위한 실험을 통해 SPF-Portrait가 최첨단 성능을 달성함을 입증합니다. 프로젝트 웹페이지: https://spf-portrait.github.io/SPF-Portrait/
English
Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait
dataset is the mainstream method for text-driven customization of portrait
attributes. Due to Semantic Pollution during fine-tuning, existing methods
struggle to maintain the original model's behavior and achieve incremental
learning while customizing target attributes. To address this issue, we propose
SPF-Portrait, a pioneering work to purely understand customized semantics while
eliminating semantic pollution in text-driven portrait customization. In our
SPF-Portrait, we propose a dual-path pipeline that introduces the original
model as a reference for the conventional fine-tuning path. Through contrastive
learning, we ensure adaptation to target attributes and purposefully align
other unrelated attributes with the original portrait. We introduce a novel
Semantic-Aware Fine Control Map, which represents the precise response regions
of the target semantics, to spatially guide the alignment process between the
contrastive paths. This alignment process not only effectively preserves the
performance of the original model but also avoids over-alignment. Furthermore,
we propose a novel response enhancement mechanism to reinforce the performance
of target attributes, while mitigating representation discrepancy inherent in
direct cross-modal supervision. Extensive experiments demonstrate that
SPF-Portrait achieves state-of-the-art performance. Project webpage:
https://spf-portrait.github.io/SPF-Portrait/Summary
AI-Generated Summary