Ottimizzazione della Fedeltà al Soggetto con Guida Negativa per la Generazione Guidata dal Soggetto in Condizioni Zero-Shot
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
June 4, 2025
Autori: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI
Abstract
Presentiamo Subject Fidelity Optimization (SFO), un innovativo framework di apprendimento comparativo per la generazione guidata da soggetti in modalità zero-shot che migliora la fedeltà al soggetto. Oltre ai metodi di fine-tuning supervisionato che si basano esclusivamente su target positivi e utilizzano la loss di diffusione come nella fase di pre-training, SFO introduce target negativi sintetici e guida esplicitamente il modello a preferire i positivi rispetto ai negativi attraverso confronti a coppie. Per i target negativi, proponiamo Condition-Degradation Negative Sampling (CDNS), che genera automaticamente negativi distintivi e informativi degradando intenzionalmente gli indizi visivi e testuali senza costose annotazioni umane. Inoltre, ricalibriamo i timestep di diffusione per concentrare il fine-tuning sui passaggi intermedi in cui emergono i dettagli del soggetto. Esperimenti estensivi dimostrano che SFO con CDNS supera significativamente i baseline in termini di fedeltà al soggetto e allineamento al testo su un benchmark di generazione guidata da soggetti. Pagina del progetto: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning
framework for zero-shot subject-driven generation that enhances subject
fidelity. Beyond supervised fine-tuning methods that rely only on positive
targets and use the diffusion loss as in the pre-training stage, SFO introduces
synthetic negative targets and explicitly guides the model to favor positives
over negatives through pairwise comparison. For negative targets, we propose
Condition-Degradation Negative Sampling (CDNS), which automatically generates
distinctive and informative negatives by intentionally degrading visual and
textual cues without expensive human annotations. Moreover, we reweight the
diffusion timesteps to focus finetuning on intermediate steps where subject
details emerge. Extensive experiments demonstrate that SFO with CDNS
significantly outperforms baselines in terms of both subject fidelity and text
alignment on a subject-driven generation benchmark. Project page:
https://subjectfidelityoptimization.github.io/