ChatPaper.aiChatPaper

Ottimizzazione della Fedeltà al Soggetto con Guida Negativa per la Generazione Guidata dal Soggetto in Condizioni Zero-Shot

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

June 4, 2025
Autori: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI

Abstract

Presentiamo Subject Fidelity Optimization (SFO), un innovativo framework di apprendimento comparativo per la generazione guidata da soggetti in modalità zero-shot che migliora la fedeltà al soggetto. Oltre ai metodi di fine-tuning supervisionato che si basano esclusivamente su target positivi e utilizzano la loss di diffusione come nella fase di pre-training, SFO introduce target negativi sintetici e guida esplicitamente il modello a preferire i positivi rispetto ai negativi attraverso confronti a coppie. Per i target negativi, proponiamo Condition-Degradation Negative Sampling (CDNS), che genera automaticamente negativi distintivi e informativi degradando intenzionalmente gli indizi visivi e testuali senza costose annotazioni umane. Inoltre, ricalibriamo i timestep di diffusione per concentrare il fine-tuning sui passaggi intermedi in cui emergono i dettagli del soggetto. Esperimenti estensivi dimostrano che SFO con CDNS supera significativamente i baseline in termini di fedeltà al soggetto e allineamento al testo su un benchmark di generazione guidata da soggetti. Pagina del progetto: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
PDF222June 5, 2025