Geraçăo Visual Guiada por Informaçőes Grosseiras via Amostragem com Transformada h Ponderada
Coarse-Guided Visual Generation via Weighted h-Transform Sampling
March 12, 2026
Autores: Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen
cs.AI
Resumo
A geração visual guiada por referências grosseiras, que sintetiza amostras visuais refinadas a partir de referências degradadas ou de baixa fidelidade, é essencial para diversas aplicações do mundo real. Embora as abordagens baseadas em treinamento sejam eficazes, elas são inerentemente limitadas pelos altos custos de treinamento e pela generalização restrita devido à coleta de dados pareados. Consequentemente, trabalhos recentes livres de treinamento propõem aproveitar modelos de difusão pré-treinados e incorporar orientação durante o processo de amostragem. No entanto, esses métodos livres de treinamento exigem conhecer o operador de transformação direta (de refinado para grosseiro), por exemplo, o redimensionamento bicúbico, ou são difíceis de equilibrar entre orientação e qualidade sintética. Para enfrentar esses desafios, propomos um novo método guiado usando a h-transformada, uma ferramenta que pode restringir processos estocásticos (por exemplo, o processo de amostragem) sob condições desejadas. Especificamente, modificamos a probabilidade de transição em cada passo de tempo de amostragem adicionando à equação diferencial original uma função de deriva, que direciona aproximadamente a geração para a amostra refinada ideal. Para lidar com erros de aproximação inevitáveis, introduzimos um esquema consciente do nível de ruído que gradualmente reduz o peso do termo à medida que o erro aumenta, garantindo tanto a adesão à orientação quanto a síntese de alta qualidade. Experimentos extensos em diversas tarefas de geração de imagem e vídeo demonstram a eficácia e a generalização do nosso método.
English
Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.