SPF-Portrait: К чистой персонализации портретов с использованием семантически чистого тонкого настройки
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
April 1, 2025
Авторы: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng
cs.AI
Аннотация
Тонкая настройка предварительно обученной модели Text-to-Image (T2I) на специализированном наборе данных портретов является основным методом для текстовой кастомизации атрибутов портретов. Из-за семантического загрязнения во время тонкой настройки существующие методы сталкиваются с трудностями в сохранении поведения исходной модели и достижении инкрементного обучения при кастомизации целевых атрибутов. Для решения этой проблемы мы предлагаем SPF-Portrait, новаторскую работу, направленную на чистое понимание кастомизированной семантики при устранении семантического загрязнения в текстовой кастомизации портретов. В нашем SPF-Portrait мы предлагаем двухпутевой конвейер, который вводит исходную модель в качестве эталона для традиционного пути тонкой настройки. С помощью контрастного обучения мы обеспечиваем адаптацию к целевым атрибутам и целенаправленно выравниваем другие несвязанные атрибуты с исходным портретом. Мы вводим новую семантически осознанную карту тонкого управления, которая представляет точные области отклика целевой семантики, чтобы пространственно направлять процесс выравнивания между контрастными путями. Этот процесс выравнивания не только эффективно сохраняет производительность исходной модели, но и избегает чрезмерного выравнивания. Кроме того, мы предлагаем новый механизм усиления отклика для улучшения производительности целевых атрибутов, одновременно смягчая расхождение представлений, присущее прямому кросс-модальному контролю. Многочисленные эксперименты демонстрируют, что SPF-Portrait достигает передовых результатов. Веб-страница проекта: https://spf-portrait.github.io/SPF-Portrait/
English
Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait
dataset is the mainstream method for text-driven customization of portrait
attributes. Due to Semantic Pollution during fine-tuning, existing methods
struggle to maintain the original model's behavior and achieve incremental
learning while customizing target attributes. To address this issue, we propose
SPF-Portrait, a pioneering work to purely understand customized semantics while
eliminating semantic pollution in text-driven portrait customization. In our
SPF-Portrait, we propose a dual-path pipeline that introduces the original
model as a reference for the conventional fine-tuning path. Through contrastive
learning, we ensure adaptation to target attributes and purposefully align
other unrelated attributes with the original portrait. We introduce a novel
Semantic-Aware Fine Control Map, which represents the precise response regions
of the target semantics, to spatially guide the alignment process between the
contrastive paths. This alignment process not only effectively preserves the
performance of the original model but also avoids over-alignment. Furthermore,
we propose a novel response enhancement mechanism to reinforce the performance
of target attributes, while mitigating representation discrepancy inherent in
direct cross-modal supervision. Extensive experiments demonstrate that
SPF-Portrait achieves state-of-the-art performance. Project webpage:
https://spf-portrait.github.io/SPF-Portrait/Summary
AI-Generated Summary