Оптимизация верности объекту с негативным руководством для генерации, управляемой объектом, в условиях нулевого сэмпла

Аннотация

Мы представляем Subject Fidelity Optimization (SFO) — новую сравнительную обучающую структуру для генерации, управляемой объектом, в условиях нулевого сэмплинга, которая повышает точность воспроизведения объекта. В отличие от методов контролируемой тонкой настройки, которые полагаются исключительно на позитивные цели и используют потери диффузии, как на этапе предварительного обучения, SFO вводит синтетические негативные цели и явно направляет модель к предпочтению позитивных целей перед негативными через попарное сравнение. Для негативных целей мы предлагаем Condition-Degradation Negative Sampling (CDNS), который автоматически генерирует отличительные и информативные негативные примеры путем преднамеренного ухудшения визуальных и текстовых подсказок без дорогостоящих человеческих аннотаций. Кроме того, мы перераспределяем веса временных шагов диффузии, чтобы сосредоточить тонкую настройку на промежуточных этапах, где проявляются детали объекта. Многочисленные эксперименты демонстрируют, что SFO с CDNS значительно превосходит базовые методы как по точности воспроизведения объекта, так и по соответствию тексту на эталонном тесте генерации, управляемой объектом. Страница проекта: https://subjectfidelityoptimization.github.io/

English

We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/

Оптимизация верности объекту с негативным руководством для генерации, управляемой объектом, в условиях нулевого сэмпла

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Аннотация

Support