RefGC-SR^2: Referenzgestützte Superauflösung und Verfeinerung generierter Inhalte

Zusammenfassung

Referenzgeführte Generierung (z. B. Objektkomposition, Anpassung) hat rasche Fortschritte gemacht, doch aktuelle Pipelines teilen eine grundlegende Einschränkung: Das von Nutzern bereitgestellte objektzentrierte hochauflösende Referenzbild (HRRI) wird vor der Eingabe in das Modell auf eine feste niedrige Auflösung (LR) herunterskaliert, sodass die feinkörnigen Details bereits vor der eigentlichen Ausgabe verworfen werden. Hinzu kommt, dass der Generierungsschritt auf diesen Verlust aufbauend eigene Artefakte (z. B. Identitätsverzerrung) einführt. Bestehende Verfahren zur referenzgeführten Verfeinerung generierter Inhalte (RefGCR) können einige dieser Artefakte korrigieren, arbeiten jedoch weiterhin im LR-Bereich; referenzgeführte Superauflösungsverfahren (RefSR) stellen die Auflösung wieder her, gehen aber von natürlichen Bilddegradationen aus und ignorieren die Artefaktverteilung generativer Pipelines. Um beide Lücken in einer einheitlichen Formulierung zu schließen, führen wir eine neue Aufgabe ein: referenzgeführte Superauflösungs-Verfeinerung generierter Inhalte (RefGC-SR²), bei der das ursprüngliche HRRI in der Nachbearbeitungsphase wiederverwendet wird, um verlorene Details wiederherzustellen, generative Artefakte zu verfeinern und gleichzeitig die Ausgabe hochzuskalieren. Wir konstruieren die erste Pipeline zur Erzeugung realer Triplettdaten für diese RefGC-SR²-Aufgabe, indem wir einen diptychon-konditionierten Generator trainieren, der gepaarte minderwertige Anker synthetisiert, die öffentliche vortrainierte Modelle nicht liefern können. Darüber hinaus stellen wir ein frequenzbewusstes Diffusionstransformatormodell für RefGC-SR² vor, das selektiv feine Details aus dem HRRI injiziert und gleichzeitig generative Artefakte entfernt. Umfangreiche Experimente zeigen, dass unser RefGC-SR²-Modell erfolgreich (i) die Objektidentität getreu der Referenz verfeinert und (ii) hochauflösende Details wiederherstellt, sodass das Endergebnis im Vergleich zu bestehenden RefGCR- und RefSR-Basislinien signifikant höherwertig und praktisch nutzbarer ist.

English

Reference-guided generation (e.g., object compositing, customization) has progressed rapidly, yet current pipelines share a fundamental limitation: the object-centric high-resolution reference image (HRRI) provided by users is downsampled to a fixed low-resolution (LR) before being fed into the model, so the fine-grained details are discarded before the output is even produced. In addition, the generation step then introduces its own artifacts (e.g., identity distortion) on top of this loss. Existing reference-guided generated content refinement (RefGCR) methods can correct some of these artifacts but still operate in the LR domain; reference-guided super-resolution (RefSR) methods recover resolution but assume natural-image degradations and ignore the artifact distribution of generative pipelines. To address both gaps in a single formulation, we introduce a new task: reference-guided generated content super-resolution-refinement (RefGC-SR^2), where the original HRRI is reused at the post-processing stage to recover lost details, refine generative artifacts, and upscale the output simultaneously. We construct the first real-world triplet data generation pipeline for this RefGC-SR^2 task, training a diptych-conditioned generator to synthesize paired low-quality anchors that public pretrained models cannot provide. We further present a frequency-aware diffusion transformer model for RefGC-SR^2 that selectively injects fine details from the HRRI while removing generative artifacts. Extensive experiments demonstrate that our RefGC-SR^2 model successfully (i) refines the object identity faithfully with respect to the reference, and (ii) recovers high-resolution details, so that the final result is significantly higher quality and practically more usable compared to existing RefGCR and RefSR baselines.