Génération visuelle à guidage grossier via un échantillonnage pondéré par h-transform

Résumé

La génération visuelle à guidage grossier, qui synthétise des échantillons visuels fins à partir de références dégradées ou de basse fidélité, est essentielle pour diverses applications réelles. Bien que les approches basées sur l'apprentissage soient efficaces, elles sont intrinsèquement limitées par des coûts d'entraînement élevés et une généralisation restreinte due à la collecte de données appariées. En conséquence, des travaux récents sans apprentissage proposent d'exploiter des modèles de diffusion pré-entraînés et d'incorporer un guidage durant le processus d'échantillonnage. Cependant, ces méthodes sans apprentissage nécessitent soit de connaître l'opérateur de transformation directe (fin-vers-grossier), par exemple le sous-échantillonnage bicubique, soit peinent à équilibrer le guidage et la qualité synthétique. Pour relever ces défis, nous proposons une nouvelle méthode guidée utilisant la h-transform, un outil capable de contraindre des processus stochastiques (par exemple, le processus d'échantillonnage) sous des conditions désirées. Spécifiquement, nous modifions la probabilité de transition à chaque pas de temps d'échantillonnage en ajoutant à l'équation différentielle originale une fonction de dérive, qui oriente approximativement la génération vers l'échantillon fin idéal. Pour pallier les erreurs d'approximation inévitables, nous introduisons un calendrier sensible au niveau de bruit qui pondère progressivement moins le terme à mesure que l'erreur augmente, garantissant à la fois l'adhérence au guidage et une synthèse de haute qualité. Des expériences approfondies sur diverses tâches de génération d'images et de vidéos démontrent l'efficacité et la généralisation de notre méthode.

English

Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.

Génération visuelle à guidage grossier via un échantillonnage pondéré par h-transform

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Résumé

Support