ChatPaper.aiChatPaper

Optimisation de la Fidélité au Sujet Guidée par Négatif pour la Génération Pilotée par Sujet en Zéro-Shot

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

June 4, 2025
Auteurs: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI

Résumé

Nous présentons Subject Fidelity Optimization (SFO), un nouveau cadre d'apprentissage comparatif pour la génération pilotée par sujet en zero-shot qui améliore la fidélité au sujet. Au-delà des méthodes de fine-tuning supervisé qui s'appuient uniquement sur des cibles positives et utilisent la perte de diffusion comme lors de la phase de pré-entraînement, SFO introduit des cibles négatives synthétiques et guide explicitement le modèle à privilégier les positifs par rapport aux négatifs via une comparaison par paires. Pour les cibles négatives, nous proposons Condition-Degradation Negative Sampling (CDNS), qui génère automatiquement des négatifs distinctifs et informatifs en dégradant intentionnellement les indices visuels et textuels sans recourir à des annotations humaines coûteuses. De plus, nous rééquilibrons les étapes de diffusion pour concentrer le fine-tuning sur les étapes intermédiaires où les détails du sujet émergent. Des expériences approfondies démontrent que SFO avec CDNS surpasse significativement les méthodes de référence en termes de fidélité au sujet et d'alignement textuel sur un benchmark de génération pilotée par sujet. Page du projet : https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
PDF212June 5, 2025