Грубо направляемое визуальное генерирование с помощью взвешенной h-трансформной выборки
Coarse-Guided Visual Generation via Weighted h-Transform Sampling
March 12, 2026
Авторы: Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen
cs.AI
Аннотация
Крупномасштабная визуальная генерация, которая синтезирует детализированные визуальные образцы из деградированных или низкокачественных грубых референсов, играет ключевую роль в различных практических приложениях. Хотя подходы, основанные на обучении, эффективны, они изначально ограничены высокими вычислительными затратами на тренировку и ограниченной обобщающей способностью из-за необходимости сбора парных данных. В связи с этим, в последних работах, не требующих обучения, предлагается использовать предобученные диффузионные модели и внедрять управляющие воздействия в процессе сэмплирования. Однако эти методы либо требуют знания прямого (от детального к грубому) оператора преобразования, например, бикубической интерполяции вниз, либо испытывают трудности с балансировкой между управлением и качеством синтеза. Для решения этих проблем мы предлагаем новый метод управления с использованием h-преобразования — инструмента, позволяющего ограничивать стохастические процессы (например, процесс сэмплирования) заданными условиями. Конкретно, мы модифицируем переходную вероятность на каждом шаге сэмплирования, добавляя к исходному дифференциальному уравнению функцию сноса, которая приближенно направляет генерацию в сторону идеального детализированного образца. Для компенсации неизбежных ошибок аппроксимации мы вводим расписание, учитывающее уровень шума, которое постепенно уменьшает вес соответствующего члена по мере роста ошибки, обеспечивая как соблюдение управляющих условий, так и высокое качество синтеза. Многочисленные эксперименты в различных задачах генерации изображений и видео демонстрируют эффективность и обобщающую способность нашего метода.
English
Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.