ChatPaper.aiChatPaper

Otimização de Fidelidade ao Sujeito com Guia Negativo para Geração Orientada por Sujeito em Zero-Shot

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

June 4, 2025
Autores: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI

Resumo

Apresentamos o Otimização de Fidelidade ao Assunto (SFO), uma nova estrutura de aprendizado comparativo para geração orientada por assunto em zero-shot que aprimora a fidelidade ao assunto. Além dos métodos de ajuste fino supervisionado que dependem apenas de alvos positivos e utilizam a perda de difusão como na fase de pré-treinamento, o SFO introduz alvos negativos sintéticos e orienta explicitamente o modelo a preferir positivos em vez de negativos por meio de comparação pareada. Para alvos negativos, propomos a Amostragem Negativa com Degradação de Condição (CDNS), que gera automaticamente negativos distintos e informativos ao degradar intencionalmente pistas visuais e textuais sem a necessidade de anotações humanas custosas. Além disso, reajustamos os passos de tempo da difusão para concentrar o ajuste fino em etapas intermediárias onde os detalhes do assunto emergem. Experimentos extensivos demonstram que o SFO com CDNS supera significativamente as linhas de base em termos de fidelidade ao assunto e alinhamento de texto em um benchmark de geração orientada por assunto. Página do projeto: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
PDF222June 5, 2025