Grob geführte visuelle Erzeugung durch gewichtete h-Transform-Sampling

Zusammenfassung

Grobgesteuerte visuelle Erzeugung, die feine visuelle Beispiele aus degradierten oder niedrigauflösenden groben Referenzen synthetisiert, ist für verschiedene realweltliche Anwendungen von entscheidender Bedeutung. Während trainierungsbasierte Ansätze effektiv sind, sind sie inhärent durch hohe Trainingskosten und eingeschränkte Generalisierung aufgrund gepaarter Datensammlung limitiert. Dementsprechend schlagen neuere trainierungsfreie Arbeiten vor, vortrainierte Diffusionsmodelle zu nutzen und Guidance während des Sampling-Prozesses zu integrieren. Diese trainierungsfreien Methoden erfordern jedoch entweder die Kenntnis des Vorwärts- (fein-zu-grob) Transformationsoperators, z.B. bikubisches Downsampling, oder es ist schwierig, einen Ausgleich zwischen Guidance und synthetischer Qualität zu finden. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Guided-Methode vor, die die h-Transformation verwendet – ein Werkzeug, das stochastische Prozesse (z.B. den Sampling-Prozess) unter gewünschten Bedingungen einschränken kann. Konkret modifizieren wir die Übergangswahrscheinlichkeit in jedem Sampling-Zeitschritt, indem wir der ursprünglichen Differentialgleichung eine Drift-Funktion hinzufügen, die die Erzeugung approximativ in Richtung des idealen feinen Samples lenkt. Um unvermeidbare Approximationsfehler zu adressieren, führen wir einen rauschpegelabhängigen Zeitplan ein, der den Term schrittweise abschwächt, wenn der Fehler zunimmt, und so sowohl die Führungsadhärenz als auch hochwertige Synthese gewährleistet. Umfangreiche Experimente über verschiedene Bild- und Videoerzeugungsaufgaben hinweg demonstrieren die Wirksamkeit und Generalisierungsfähigkeit unserer Methode.

English

Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.

Grob geführte visuelle Erzeugung durch gewichtete h-Transform-Sampling

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Zusammenfassung

Support