RefGC-SR^2 : Super-résolution et affinement de contenu généré guidés par référence

Résumé

La génération guidée par référence (par exemple, composition d’objets, personnalisation) a progressé rapidement, mais les pipelines actuels partagent une limitation fondamentale : l’image de référence haute résolution (HRRI) centrée sur l’objet fournie par l’utilisateur est sous-échantillonnée à une basse résolution fixe (LR) avant d’être injectée dans le modèle, de sorte que les détails fins sont écartés avant même que la sortie ne soit produite. De plus, l’étape de génération introduit ensuite ses propres artefacts (par exemple, distorsion d’identité) par-dessus cette perte. Les méthodes existantes de raffinement de contenu généré guidé par référence (RefGCR) peuvent corriger certains de ces artefacts mais opèrent toujours dans le domaine LR ; les méthodes de super-résolution guidée par référence (RefSR) récupèrent la résolution mais supposent des dégradations d’image naturelles et ignorent la distribution des artefacts des pipelines génératifs. Pour combler ces deux lacunes dans une formulation unique, nous introduisons une nouvelle tâche : la super-résolution-raffinement de contenu généré guidé par référence (RefGC-SR²), où la HRRI originale est réutilisée à l’étape de post-traitement pour récupérer les détails perdus, raffiner les artefacts génératifs et sur-échantillonner la sortie simultanément. Nous construisons le premier pipeline de génération de données en triplets du monde réel pour cette tâche RefGC-SR², en entraînant un générateur conditionné par diptyque à synthétiser des ancres de faible qualité appariées que les modèles pré-entraînés publics ne peuvent pas fournir. Nous présentons également un transformateur de diffusion sensible aux fréquences pour RefGC-SR², qui injecte sélectivement les détails fins de la HRRI tout en supprimant les artefacts génératifs. Des expériences approfondies démontrent que notre modèle RefGC-SR² réussit à (i) raffiner l’identité de l’objet de manière fidèle par rapport à la référence, et (ii) récupérer les détails haute résolution, de sorte que le résultat final soit d’une qualité significativement supérieure et pratiquement plus utilisable par rapport aux références RefGCR et RefSR existantes.

English

Reference-guided generation (e.g., object compositing, customization) has progressed rapidly, yet current pipelines share a fundamental limitation: the object-centric high-resolution reference image (HRRI) provided by users is downsampled to a fixed low-resolution (LR) before being fed into the model, so the fine-grained details are discarded before the output is even produced. In addition, the generation step then introduces its own artifacts (e.g., identity distortion) on top of this loss. Existing reference-guided generated content refinement (RefGCR) methods can correct some of these artifacts but still operate in the LR domain; reference-guided super-resolution (RefSR) methods recover resolution but assume natural-image degradations and ignore the artifact distribution of generative pipelines. To address both gaps in a single formulation, we introduce a new task: reference-guided generated content super-resolution-refinement (RefGC-SR^2), where the original HRRI is reused at the post-processing stage to recover lost details, refine generative artifacts, and upscale the output simultaneously. We construct the first real-world triplet data generation pipeline for this RefGC-SR^2 task, training a diptych-conditioned generator to synthesize paired low-quality anchors that public pretrained models cannot provide. We further present a frequency-aware diffusion transformer model for RefGC-SR^2 that selectively injects fine details from the HRRI while removing generative artifacts. Extensive experiments demonstrate that our RefGC-SR^2 model successfully (i) refines the object identity faithfully with respect to the reference, and (ii) recovers high-resolution details, so that the final result is significantly higher quality and practically more usable compared to existing RefGCR and RefSR baselines.