Оптимизация верности объекту с негативным руководством для генерации, управляемой объектом, в условиях нулевого сэмпла
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
June 4, 2025
Авторы: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI
Аннотация
Мы представляем Subject Fidelity Optimization (SFO) — новую сравнительную обучающую структуру для генерации, управляемой объектом, в условиях нулевого сэмплинга, которая повышает точность воспроизведения объекта. В отличие от методов контролируемой тонкой настройки, которые полагаются исключительно на позитивные цели и используют потери диффузии, как на этапе предварительного обучения, SFO вводит синтетические негативные цели и явно направляет модель к предпочтению позитивных целей перед негативными через попарное сравнение. Для негативных целей мы предлагаем Condition-Degradation Negative Sampling (CDNS), который автоматически генерирует отличительные и информативные негативные примеры путем преднамеренного ухудшения визуальных и текстовых подсказок без дорогостоящих человеческих аннотаций. Кроме того, мы перераспределяем веса временных шагов диффузии, чтобы сосредоточить тонкую настройку на промежуточных этапах, где проявляются детали объекта. Многочисленные эксперименты демонстрируют, что SFO с CDNS значительно превосходит базовые методы как по точности воспроизведения объекта, так и по соответствию тексту на эталонном тесте генерации, управляемой объектом. Страница проекта: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning
framework for zero-shot subject-driven generation that enhances subject
fidelity. Beyond supervised fine-tuning methods that rely only on positive
targets and use the diffusion loss as in the pre-training stage, SFO introduces
synthetic negative targets and explicitly guides the model to favor positives
over negatives through pairwise comparison. For negative targets, we propose
Condition-Degradation Negative Sampling (CDNS), which automatically generates
distinctive and informative negatives by intentionally degrading visual and
textual cues without expensive human annotations. Moreover, we reweight the
diffusion timesteps to focus finetuning on intermediate steps where subject
details emerge. Extensive experiments demonstrate that SFO with CDNS
significantly outperforms baselines in terms of both subject fidelity and text
alignment on a subject-driven generation benchmark. Project page:
https://subjectfidelityoptimization.github.io/