RefGC-SR^2: Направляемое эталоном сверхразрешение и уточнение сгенерированного контента

Аннотация

Референс-управляемая генерация (например, композиция объектов, кастомизация) в последнее время значительно прогрессировала, однако текущие конвейеры имеют фундаментальное ограничение: высокоразрешающее референсное изображение (HRRI) с центрированным объектом, предоставленное пользователем, подвергается понижающей дискретизации до фиксированного низкого разрешения (LR) перед подачей в модель, в результате чего тонкие детали отбрасываются ещё до того, как выходной результат будет получен. Дополнительно этап генерации вносит собственные артефакты (например, искажение идентичности) поверх данных потерь. Существующие методы референс-управляемого улучшения сгенерированного контента (RefGCR) могут исправлять часть этих артефактов, но всё ещё работают в домене низкого разрешения; методы референс-управляемого суперразрешения (RefSR) восстанавливают разрешение, но предполагают искажения, свойственные естественным изображениям, и игнорируют распределение артефактов генеративных конвейеров. Для устранения обоих пробелов в единой постановке мы вводим новую задачу: референс-управляемое суперразрешение и улучшение сгенерированного контента (RefGC-SR²), в которой исходное HRRI повторно используется на этапе постобработки для одновременного восстановления утерянных деталей, исправления генеративных артефактов и повышения разрешения выходного изображения. Мы создали первый конвейер генерации репрезентативных триплетов реальных данных для этой задачи RefGC-SR², обучив генератор с условием на диптих синтезировать парные некачественные опорные изображения, которые не могут быть получены с помощью предварительно обученных публичных моделей. Далее мы представляем частотно-чувствительный диффузионный трансформер для RefGC-SR², который выборочно внедряет тонкие детали из HRRI, одновременно удаляя генеративные артефакты. Обширные эксперименты показывают, что наша модель RefGC-SR² успешно (i) восстанавливает идентичность объекта с высокой точностью относительно референса и (ii) восстанавливает детали высокого разрешения, так что итоговый результат обладает значительно более высоким качеством и практической пригодностью по сравнению с существующими базовыми методами RefGCR и RefSR.

English

Reference-guided generation (e.g., object compositing, customization) has progressed rapidly, yet current pipelines share a fundamental limitation: the object-centric high-resolution reference image (HRRI) provided by users is downsampled to a fixed low-resolution (LR) before being fed into the model, so the fine-grained details are discarded before the output is even produced. In addition, the generation step then introduces its own artifacts (e.g., identity distortion) on top of this loss. Existing reference-guided generated content refinement (RefGCR) methods can correct some of these artifacts but still operate in the LR domain; reference-guided super-resolution (RefSR) methods recover resolution but assume natural-image degradations and ignore the artifact distribution of generative pipelines. To address both gaps in a single formulation, we introduce a new task: reference-guided generated content super-resolution-refinement (RefGC-SR^2), where the original HRRI is reused at the post-processing stage to recover lost details, refine generative artifacts, and upscale the output simultaneously. We construct the first real-world triplet data generation pipeline for this RefGC-SR^2 task, training a diptych-conditioned generator to synthesize paired low-quality anchors that public pretrained models cannot provide. We further present a frequency-aware diffusion transformer model for RefGC-SR^2 that selectively injects fine details from the HRRI while removing generative artifacts. Extensive experiments demonstrate that our RefGC-SR^2 model successfully (i) refines the object identity faithfully with respect to the reference, and (ii) recovers high-resolution details, so that the final result is significantly higher quality and practically more usable compared to existing RefGCR and RefSR baselines.