SPF-Portrait: К чистой персонализации портретов с использованием семантически чистого тонкого настройки

Аннотация

Тонкая настройка предварительно обученной модели Text-to-Image (T2I) на специализированном наборе данных портретов является основным методом для текстовой кастомизации атрибутов портретов. Из-за семантического загрязнения во время тонкой настройки существующие методы сталкиваются с трудностями в сохранении поведения исходной модели и достижении инкрементного обучения при кастомизации целевых атрибутов. Для решения этой проблемы мы предлагаем SPF-Portrait, новаторскую работу, направленную на чистое понимание кастомизированной семантики при устранении семантического загрязнения в текстовой кастомизации портретов. В нашем SPF-Portrait мы предлагаем двухпутевой конвейер, который вводит исходную модель в качестве эталона для традиционного пути тонкой настройки. С помощью контрастного обучения мы обеспечиваем адаптацию к целевым атрибутам и целенаправленно выравниваем другие несвязанные атрибуты с исходным портретом. Мы вводим новую семантически осознанную карту тонкого управления, которая представляет точные области отклика целевой семантики, чтобы пространственно направлять процесс выравнивания между контрастными путями. Этот процесс выравнивания не только эффективно сохраняет производительность исходной модели, но и избегает чрезмерного выравнивания. Кроме того, мы предлагаем новый механизм усиления отклика для улучшения производительности целевых атрибутов, одновременно смягчая расхождение представлений, присущее прямому кросс-модальному контролю. Многочисленные эксперименты демонстрируют, что SPF-Portrait достигает передовых результатов. Веб-страница проекта: https://spf-portrait.github.io/SPF-Portrait/

English

Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait dataset is the mainstream method for text-driven customization of portrait attributes. Due to Semantic Pollution during fine-tuning, existing methods struggle to maintain the original model's behavior and achieve incremental learning while customizing target attributes. To address this issue, we propose SPF-Portrait, a pioneering work to purely understand customized semantics while eliminating semantic pollution in text-driven portrait customization. In our SPF-Portrait, we propose a dual-path pipeline that introduces the original model as a reference for the conventional fine-tuning path. Through contrastive learning, we ensure adaptation to target attributes and purposefully align other unrelated attributes with the original portrait. We introduce a novel Semantic-Aware Fine Control Map, which represents the precise response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. This alignment process not only effectively preserves the performance of the original model but also avoids over-alignment. Furthermore, we propose a novel response enhancement mechanism to reinforce the performance of target attributes, while mitigating representation discrepancy inherent in direct cross-modal supervision. Extensive experiments demonstrate that SPF-Portrait achieves state-of-the-art performance. Project webpage: https://spf-portrait.github.io/SPF-Portrait/

SPF-Portrait: К чистой персонализации портретов с использованием семантически чистого тонкого настройки

SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning

Аннотация

Support