Optimización de Fidelidad del Sujeto Guiada por Negativos para la Generación Dirigida por Sujetos en Cero Disparos
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
June 4, 2025
Autores: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI
Resumen
Presentamos Optimización de Fidelidad del Sujeto (SFO, por sus siglas en inglés), un novedoso marco de aprendizaje comparativo para la generación impulsada por sujetos en modo zero-shot que mejora la fidelidad del sujeto. A diferencia de los métodos de ajuste fino supervisado que dependen únicamente de objetivos positivos y utilizan la pérdida de difusión como en la etapa de preentrenamiento, SFO introduce objetivos negativos sintéticos y guía explícitamente al modelo a favorecer los positivos sobre los negativos mediante comparaciones por pares. Para los objetivos negativos, proponemos Muestreo Negativo con Degradación de Condiciones (CDNS, por sus siglas en inglés), que genera automáticamente negativos distintivos e informativos al degradar intencionalmente las señales visuales y textuales sin necesidad de costosas anotaciones humanas. Además, reasignamos los pesos de los pasos de difusión para centrar el ajuste fino en los pasos intermedios donde emergen los detalles del sujeto. Experimentos exhaustivos demuestran que SFO con CDNS supera significativamente a los métodos de referencia en términos de fidelidad del sujeto y alineación con el texto en un benchmark de generación impulsada por sujetos. Página del proyecto: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning
framework for zero-shot subject-driven generation that enhances subject
fidelity. Beyond supervised fine-tuning methods that rely only on positive
targets and use the diffusion loss as in the pre-training stage, SFO introduces
synthetic negative targets and explicitly guides the model to favor positives
over negatives through pairwise comparison. For negative targets, we propose
Condition-Degradation Negative Sampling (CDNS), which automatically generates
distinctive and informative negatives by intentionally degrading visual and
textual cues without expensive human annotations. Moreover, we reweight the
diffusion timesteps to focus finetuning on intermediate steps where subject
details emerge. Extensive experiments demonstrate that SFO with CDNS
significantly outperforms baselines in terms of both subject fidelity and text
alignment on a subject-driven generation benchmark. Project page:
https://subjectfidelityoptimization.github.io/