가중 h-변환 샘플링을 통한 코스 가이드 시각적 생성
Coarse-Guided Visual Generation via Weighted h-Transform Sampling
March 12, 2026
저자: Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen
cs.AI
초록
거친 안내 시각 생성은 저하되거나 낮은 정밀도의 거친 참조로부터 정밀한 시각 샘플을 합성하는 기술로, 다양한 실제 응용 분야에서 필수적입니다. 학습 기반 접근법은 효과적이지만, 짝을 이룬 데이터 수집으로 인해 높은 학습 비용과 제한된 일반화라는 본질적인 한계를 지닙니다. 이에 따라 최근의 학습 없는 연구들은 사전 학습된 확산 모델을 활용하고 샘플링 과정 중에 안내를 통합하는 방법을 제안합니다. 그러나 이러한 학습 없는 방법들은 양방향(정밀-거친) 변환 연산자(예: 바이큐빅 다운샘플링)를 미리 알아야 하거나, 안내와 합성 품질 사이의 균형을 맞추기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해 우리는 확률적 과정(예: 샘플링 과정)을 원하는 조건 아래에 구속할 수 있는 도구인 h-변환을 이용한 새로운 안내 방법을 제안합니다. 구체적으로, 우리는 각 샘플링 시간 단계에서의 전이 확률을 원래 미분 방정식에 드리프트 함수를 추가하여 수정함으로써 생성 과정이 이상적인 정밀 샘플을 향하도록 근사적으로 조종합니다. 피할 수 없는 근사 오차를 해결하기 위해, 오차가 증가함에 따라 해당 항의 가중치를 점차 줄이는 노이즈 수준 인식 스케줄을 도입하여 안내 충실도와 높은 품질의 합성을 모두 보장합니다. 다양한 이미지 및 비디오 생성 작업에 걸친 광범위한 실험을 통해 우리 방법의 효과성과 일반화 능력을 입증합니다.
English
Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.