ChatPaper.aiChatPaper

RefGC-SR^2: Super-Resolução e Refinamento de Conteúdo Gerado Guiados por Referência

RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

June 13, 2026
Autores: Jeahun Sung, Dahyeon Kye, Soo Ye Kim, Jihyong Oh
cs.AI

Resumo

A geração guiada por referência (ex.: composição de objetos, personalização) progrediu rapidamente, no entanto, os pipelines atuais compartilham uma limitação fundamental: a imagem de referência de alta resolução (HRRI) centrada no objeto fornecida pelos usuários é reamostrada para uma baixa resolução (LR) fixa antes de ser alimentada no modelo, de modo que os detalhes finos são descartados antes mesmo da saída ser produzida. Além disso, a etapa de geração então introduz seus próprios artefatos (ex.: distorção de identidade) sobre essa perda. Os métodos existentes de refinamento de conteúdo gerado guiado por referência (RefGCR) podem corrigir alguns desses artefatos, mas ainda operam no domínio de LR; métodos de super-resolução guiada por referência (RefSR) recuperam a resolução, mas assumem degradações de imagens naturais e ignoram a distribuição de artefatos dos pipelines generativos. Para abordar ambas as lacunas em uma única formulação, introduzimos uma nova tarefa: refinamento de super-resolução de conteúdo gerado guiado por referência (RefGC-SR²), onde a HRRI original é reutilizada no estágio de pós-processamento para recuperar detalhes perdidos, refinar artefatos generativos e aumentar a resolução da saída simultaneamente. Construímos o primeiro pipeline de geração de dados triplos do mundo real para essa tarefa RefGC-SR², treinando um gerador condicionado por díptico para sintetizar âncoras de baixa qualidade emparelhadas que modelos pré-treinados públicos não podem fornecer. Apresentamos ainda um modelo de transformador de difusão sensível à frequência para RefGC-SR² que injeta seletivamente detalhes finos da HRRI enquanto remove artefatos generativos. Experimentos extensivos demonstram que nosso modelo RefGC-SR² refina com sucesso (i) a identidade do objeto fielmente em relação à referência, e (ii) recupera detalhes de alta resolução, de modo que o resultado final tem qualidade significativamente maior e é praticamente mais utilizável em comparação com as linhas de base existentes de RefGCR e RefSR.
English
Reference-guided generation (e.g., object compositing, customization) has progressed rapidly, yet current pipelines share a fundamental limitation: the object-centric high-resolution reference image (HRRI) provided by users is downsampled to a fixed low-resolution (LR) before being fed into the model, so the fine-grained details are discarded before the output is even produced. In addition, the generation step then introduces its own artifacts (e.g., identity distortion) on top of this loss. Existing reference-guided generated content refinement (RefGCR) methods can correct some of these artifacts but still operate in the LR domain; reference-guided super-resolution (RefSR) methods recover resolution but assume natural-image degradations and ignore the artifact distribution of generative pipelines. To address both gaps in a single formulation, we introduce a new task: reference-guided generated content super-resolution-refinement (RefGC-SR^2), where the original HRRI is reused at the post-processing stage to recover lost details, refine generative artifacts, and upscale the output simultaneously. We construct the first real-world triplet data generation pipeline for this RefGC-SR^2 task, training a diptych-conditioned generator to synthesize paired low-quality anchors that public pretrained models cannot provide. We further present a frequency-aware diffusion transformer model for RefGC-SR^2 that selectively injects fine details from the HRRI while removing generative artifacts. Extensive experiments demonstrate that our RefGC-SR^2 model successfully (i) refines the object identity faithfully with respect to the reference, and (ii) recovers high-resolution details, so that the final result is significantly higher quality and practically more usable compared to existing RefGCR and RefSR baselines.