Generazione Visiva Guidata Approssimativa tramite Campionamento Pesato della Trasformata h

Abstract

La generazione visiva guidata da riferimenti approssimativi, che sintetizza campioni visivi dettagliati a partire da riferimenti degradati o a bassa fedeltà, è essenziale per varie applicazioni nel mondo reale. Sebbene gli approcci basati sull'addestramento siano efficaci, sono intrinsecamente limitati dagli elevati costi di training e dalla generalizzazione ridotta a causa della raccolta di dati accoppiati. Di conseguenza, recenti lavori senza addestramento propongono di sfruttare modelli di diffusione preaddestrati e incorporare la guida durante il processo di campionamento. Tuttavia, questi metodi senza training richiedono la conoscenza dell'operatore di trasformazione diretta (da dettagliato ad approssimativo), ad esempio il downsampling bicubico, oppure risultano difficili da bilanciare tra guida e qualità sintetica. Per affrontare queste sfide, proponiamo un nuovo metodo guidato utilizzando l'h-transform, uno strumento in grado di vincolare processi stocastici (ad esempio, il processo di campionamento) sotto condizioni desiderate. Nello specifico, modifichiamo la probabilità di transizione ad ogni step di campionamento aggiungendo all'equazione differenziale originale una funzione di deriva, che orienta approssimativamente la generazione verso il campione dettagliato ideale. Per gestire gli inevitabili errori di approssimazione, introduciamo una schedulazione consapevole del livello di rumore che riduce gradualmente il peso del termine man mano che l'errore aumenta, garantendo sia l'aderenza alla guida che una sintesi di alta qualità. Esperimenti estesi su diverse attività di generazione di immagini e video dimostrano l'efficacia e la generalizzazione del nostro metodo.

English

Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.

Generazione Visiva Guidata Approssimativa tramite Campionamento Pesato della Trasformata h

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Abstract

Support