ChatPaper.aiChatPaper

Negative-geführte Subjekttreue-Optimierung für null-Shot Subjektgetriebene Generierung

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

June 4, 2025
Autoren: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI

Zusammenfassung

Wir präsentieren Subject Fidelity Optimization (SFO), ein neuartiges vergleichendes Lernframework für die null-Shot-subjektgesteuerte Generierung, das die Subjekttreue verbessert. Im Gegensatz zu überwachten Feinabstimmungsmethoden, die sich ausschließlich auf positive Ziele verlassen und den Diffusionsverlust wie in der Vorabtrainingsphase verwenden, führt SFO synthetische negative Ziele ein und leitet das Modell explizit an, positive gegenüber negativen Zielen durch paarweisen Vergleich zu bevorzugen. Für negative Ziele schlagen wir Condition-Degradation Negative Sampling (CDNS) vor, das automatisch unterscheidbare und informative Negative erzeugt, indem visuelle und textuelle Hinweise absichtlich verschlechtert werden, ohne kostspielige menschliche Annotationen. Darüber hinaus gewichten wir die Diffusionszeitpunkte neu, um die Feinabstimmung auf Zwischenschritte zu konzentrieren, in denen Subjektdetails entstehen. Umfangreiche Experimente zeigen, dass SFO mit CDNS die Baselines sowohl in Bezug auf die Subjekttreue als auch auf die Textausrichtung auf einem Benchmark für subjektgesteuerte Generierung deutlich übertrifft. Projektseite: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
PDF212June 5, 2025