Otimização de Fidelidade ao Sujeito com Guia Negativo para Geração Orientada por Sujeito em Zero-Shot
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
June 4, 2025
Autores: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI
Resumo
Apresentamos o Otimização de Fidelidade ao Assunto (SFO), uma nova estrutura de aprendizado comparativo para geração orientada por assunto em zero-shot que aprimora a fidelidade ao assunto. Além dos métodos de ajuste fino supervisionado que dependem apenas de alvos positivos e utilizam a perda de difusão como na fase de pré-treinamento, o SFO introduz alvos negativos sintéticos e orienta explicitamente o modelo a preferir positivos em vez de negativos por meio de comparação pareada. Para alvos negativos, propomos a Amostragem Negativa com Degradação de Condição (CDNS), que gera automaticamente negativos distintos e informativos ao degradar intencionalmente pistas visuais e textuais sem a necessidade de anotações humanas custosas. Além disso, reajustamos os passos de tempo da difusão para concentrar o ajuste fino em etapas intermediárias onde os detalhes do assunto emergem. Experimentos extensivos demonstram que o SFO com CDNS supera significativamente as linhas de base em termos de fidelidade ao assunto e alinhamento de texto em um benchmark de geração orientada por assunto. Página do projeto: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning
framework for zero-shot subject-driven generation that enhances subject
fidelity. Beyond supervised fine-tuning methods that rely only on positive
targets and use the diffusion loss as in the pre-training stage, SFO introduces
synthetic negative targets and explicitly guides the model to favor positives
over negatives through pairwise comparison. For negative targets, we propose
Condition-Degradation Negative Sampling (CDNS), which automatically generates
distinctive and informative negatives by intentionally degrading visual and
textual cues without expensive human annotations. Moreover, we reweight the
diffusion timesteps to focus finetuning on intermediate steps where subject
details emerge. Extensive experiments demonstrate that SFO with CDNS
significantly outperforms baselines in terms of both subject fidelity and text
alignment on a subject-driven generation benchmark. Project page:
https://subjectfidelityoptimization.github.io/