Optimización de Fidelidad del Sujeto Guiada por Negativos para la Generación Dirigida por Sujetos en Cero Disparos

Resumen

Presentamos Optimización de Fidelidad del Sujeto (SFO, por sus siglas en inglés), un novedoso marco de aprendizaje comparativo para la generación impulsada por sujetos en modo zero-shot que mejora la fidelidad del sujeto. A diferencia de los métodos de ajuste fino supervisado que dependen únicamente de objetivos positivos y utilizan la pérdida de difusión como en la etapa de preentrenamiento, SFO introduce objetivos negativos sintéticos y guía explícitamente al modelo a favorecer los positivos sobre los negativos mediante comparaciones por pares. Para los objetivos negativos, proponemos Muestreo Negativo con Degradación de Condiciones (CDNS, por sus siglas en inglés), que genera automáticamente negativos distintivos e informativos al degradar intencionalmente las señales visuales y textuales sin necesidad de costosas anotaciones humanas. Además, reasignamos los pesos de los pasos de difusión para centrar el ajuste fino en los pasos intermedios donde emergen los detalles del sujeto. Experimentos exhaustivos demuestran que SFO con CDNS supera significativamente a los métodos de referencia en términos de fidelidad del sujeto y alineación con el texto en un benchmark de generación impulsada por sujetos. Página del proyecto: https://subjectfidelityoptimization.github.io/

English

We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/

Optimización de Fidelidad del Sujeto Guiada por Negativos para la Generación Dirigida por Sujetos en Cero Disparos

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Resumen

Support