RefGC-SR^2: Superresolución y Refinamiento de Contenido Generado Guiados por Referencia

Resumen

La generación guiada por referencia (por ejemplo, composición de objetos, personalización) ha avanzado rápidamente, pero los pipelines actuales comparten una limitación fundamental: la imagen de referencia de alta resolución (HRRI) centrada en el objeto proporcionada por los usuarios se reduce a una resolución baja fija (LR) antes de ser introducida en el modelo, por lo que los detalles finos se descartan antes incluso de que se genere la salida. Además, el paso de generación introduce sus propios artefactos (por ejemplo, distorsión de identidad) sobre esta pérdida. Los métodos existentes de refinamiento de contenido generado guiado por referencia (RefGCR) pueden corregir algunos de estos artefactos, pero aún operan en el dominio de baja resolución; los métodos de superresolución guiada por referencia (RefSR) recuperan la resolución pero asumen degradaciones de imágenes naturales e ignoran la distribución de artefactos de los pipelines generativos. Para abordar ambas brechas en una sola formulación, introducimos una nueva tarea: superresolución-refinamiento de contenido generado guiado por referencia (RefGC-SR²), donde la HRRI original se reutiliza en la etapa de posprocesamiento para recuperar detalles perdidos, refinar artefactos generativos y escalar la salida simultáneamente. Construimos el primer pipeline de generación de datos triples del mundo real para esta tarea RefGC-SR², entrenando un generador condicionado por díptico para sintetizar pares de anclajes de baja calidad que los modelos preentrenados públicos no pueden proporcionar. Además, presentamos un modelo de transformador de difusión consciente de la frecuencia para RefGC-SR² que inyecta selectivamente detalles finos de la HRRI mientras elimina artefactos generativos. Experimentos exhaustivos demuestran que nuestro modelo RefGC-SR² refina exitosamente (i) la identidad del objeto de manera fiel con respecto a la referencia, y (ii) recupera detalles de alta resolución, de modo que el resultado final es significativamente de mayor calidad y prácticamente más utilizable en comparación con las líneas base existentes de RefGCR y RefSR.

English

Reference-guided generation (e.g., object compositing, customization) has progressed rapidly, yet current pipelines share a fundamental limitation: the object-centric high-resolution reference image (HRRI) provided by users is downsampled to a fixed low-resolution (LR) before being fed into the model, so the fine-grained details are discarded before the output is even produced. In addition, the generation step then introduces its own artifacts (e.g., identity distortion) on top of this loss. Existing reference-guided generated content refinement (RefGCR) methods can correct some of these artifacts but still operate in the LR domain; reference-guided super-resolution (RefSR) methods recover resolution but assume natural-image degradations and ignore the artifact distribution of generative pipelines. To address both gaps in a single formulation, we introduce a new task: reference-guided generated content super-resolution-refinement (RefGC-SR^2), where the original HRRI is reused at the post-processing stage to recover lost details, refine generative artifacts, and upscale the output simultaneously. We construct the first real-world triplet data generation pipeline for this RefGC-SR^2 task, training a diptych-conditioned generator to synthesize paired low-quality anchors that public pretrained models cannot provide. We further present a frequency-aware diffusion transformer model for RefGC-SR^2 that selectively injects fine details from the HRRI while removing generative artifacts. Extensive experiments demonstrate that our RefGC-SR^2 model successfully (i) refines the object identity faithfully with respect to the reference, and (ii) recovers high-resolution details, so that the final result is significantly higher quality and practically more usable compared to existing RefGCR and RefSR baselines.