ChatPaper.aiChatPaper

Negatief-Gestuurde Onderwerpgetrouwheidsoptimalisatie voor Zero-Shot Onderwerpgedreven Generatie

Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

June 4, 2025
Auteurs: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
cs.AI

Samenvatting

We presenteren Subject Fidelity Optimization (SFO), een nieuw vergelijkend leerframework voor zero-shot subject-gedreven generatie dat de trouw aan het onderwerp verbetert. In tegenstelling tot supervised fine-tuning methoden die alleen vertrouwen op positieve doelen en het diffusieverlies gebruiken zoals in de pre-trainingsfase, introduceert SFO synthetische negatieve doelen en leidt het model expliciet om positieven te verkiezen boven negatieven door middel van paarsgewijze vergelijking. Voor negatieve doelen stellen we Condition-Degradation Negative Sampling (CDNS) voor, dat automatisch onderscheidende en informatieve negatieven genereert door visuele en tekstuele aanwijzingen opzettelijk te verslechteren zonder dure menselijke annotaties. Bovendien herwegen we de diffusietijdstappen om de fine-tuning te richten op tussenliggende stappen waaronder subjectdetails naar voren komen. Uitgebreide experimenten tonen aan dat SFO met CDNS de baseline-methoden aanzienlijk overtreft wat betreft zowel subjecttrouw als tekstuitlijning op een benchmark voor subject-gedreven generatie. Projectpagina: https://subjectfidelityoptimization.github.io/
English
We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
PDF222June 5, 2025