RefGC-SR^2: Referentiegeleide Superresolutie en Verfijning van Gegenereerde Inhoud

Samenvatting

Referentiegestuurde generatie (bijv. objectcompositie, aanpassing) heeft zich snel ontwikkeld, maar huidige pipelines delen een fundamentele beperking: de objectgerichte hoge-resolutie referentieafbeelding (HRRI) die door gebruikers wordt aangeleverd, wordt gedownsampled naar een vaste lage resolutie (LR) voordat deze in het model wordt ingevoerd, waardoor de fijnkorrelige details al worden weggegooid voordat de uitvoer wordt geproduceerd. Bovendien introduceert de generatiestap vervolgens zijn eigen artefacten (bijv. identiteitsvervorming) bovenop dit verlies. Bestaande methoden voor referentiegestuurde verfijning van gegenereerde inhoud (RefGCR) kunnen sommige van deze artefacten corrigeren, maar werken nog steeds in het LR-domein; referentiegestuurde superresolutie (RefSR) methoden herstellen de resolutie, maar gaan uit van natuurlijke beelddegradaties en negeren de artefactverdeling van generatieve pipelines. Om beide hiaten in één formulering aan te pakken, introduceren we een nieuwe taak: referentiegestuurde superresolutie-verfijning van gegenereerde inhoud (RefGC-SR²), waarbij de oorspronkelijke HRRI opnieuw wordt gebruikt in de nabewerkingsfase om verloren details te herstellen, generatieve artefacten te verfijnen en de uitvoer tegelijkertijd op te schalen. We bouwen de eerste real-world triplet data generation pipeline voor deze RefGC-SR² taak, waarbij we een diptiek-geconditioneerde generator trainen om gepaarde lage-kwaliteit ankers te synthetiseren die openbare voorgetrainde modellen niet kunnen leveren. Verder presenteren we een frequentiebewust diffusietransformermodel voor RefGC-SR² dat selectief fijne details uit de HRRI injecteert terwijl generatieve artefacten worden verwijderd. Uitgebreide experimenten tonen aan dat ons RefGC-SR² model met succes (i) de objectidentiteit getrouw verfijnt ten opzichte van de referentie, en (ii) hoge-resolutie details herstelt, waardoor het eindresultaat aanzienlijk hogere kwaliteit heeft en praktisch bruikbaarder is in vergelijking met bestaande RefGCR- en RefSR-baselines.

English

Reference-guided generation (e.g., object compositing, customization) has progressed rapidly, yet current pipelines share a fundamental limitation: the object-centric high-resolution reference image (HRRI) provided by users is downsampled to a fixed low-resolution (LR) before being fed into the model, so the fine-grained details are discarded before the output is even produced. In addition, the generation step then introduces its own artifacts (e.g., identity distortion) on top of this loss. Existing reference-guided generated content refinement (RefGCR) methods can correct some of these artifacts but still operate in the LR domain; reference-guided super-resolution (RefSR) methods recover resolution but assume natural-image degradations and ignore the artifact distribution of generative pipelines. To address both gaps in a single formulation, we introduce a new task: reference-guided generated content super-resolution-refinement (RefGC-SR^2), where the original HRRI is reused at the post-processing stage to recover lost details, refine generative artifacts, and upscale the output simultaneously. We construct the first real-world triplet data generation pipeline for this RefGC-SR^2 task, training a diptych-conditioned generator to synthesize paired low-quality anchors that public pretrained models cannot provide. We further present a frequency-aware diffusion transformer model for RefGC-SR^2 that selectively injects fine details from the HRRI while removing generative artifacts. Extensive experiments demonstrate that our RefGC-SR^2 model successfully (i) refines the object identity faithfully with respect to the reference, and (ii) recovers high-resolution details, so that the final result is significantly higher quality and practically more usable compared to existing RefGCR and RefSR baselines.