Grove visuele generatie via gewogen h-transformatie-steekproefname
Coarse-Guided Visual Generation via Weighted h-Transform Sampling
March 12, 2026
Auteurs: Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen
cs.AI
Samenvatting
Grofgeleide visuele generatie, die gedetailleerde visuele voorbeelden synthetiseert uit gedegradeerde of laagwaardige grove referenties, is essentieel voor diverse real-world toepassingen. Hoewel op training gebaseerde benaderingen effectief zijn, worden ze inherent beperkt door hoge trainingskosten en beperkte generalisatie als gevolg van gepaarde dataverzameling. Dienovereenkomstig stellen recente trainingsvrije werken voor om voorgetrainde diffusiemodellen te benutten en begeleiding tijdens het samplingproces te incorporeren. Deze trainingsvrije methoden vereisen echter óf kennis van de voorwaartse (fijn-naar-grof) transformatieoperator, zoals bicubische downsampling, óf hebben moeite met het balanceren tussen begeleiding en synthetische kwaliteit. Om deze uitdagingen aan te pakken, stellen we een nieuwe geleide methode voor door gebruik te maken van de h-transform, een tool die stochastische processen (zoals het samplingproces) kan beperken onder gewenste condities. Specifiek modificeren we de overgangswaarschijnlijkheid bij elke samplingstap door een driftfunctie toe te voegen aan de oorspronkelijke differentiaalvergelijking, die de generatie bij benadering stuurt naar het ideale fijne voorbeeld. Om onvermijdelijke benaderingsfouten aan te pakken, introduceren we een op ruisniveau afgestemd schema dat de term geleidelijk afzwakt naarmate de fout toeneemt, wat zowel naleving van de begeleiding als hoogwaardige synthese waarborgt. Uitgebreide experimenten in diverse beeld- en videogeneratietaken demonstreren de effectiviteit en generalisatie van onze methode.
English
Coarse-guided visual generation, which synthesizes fine visual samples from degraded or low-fidelity coarse references, is essential for various real-world applications. While training-based approaches are effective, they are inherently limited by high training costs and restricted generalization due to paired data collection. Accordingly, recent training-free works propose to leverage pretrained diffusion models and incorporate guidance during the sampling process. However, these training-free methods either require knowing the forward (fine-to-coarse) transformation operator, e.g., bicubic downsampling, or are difficult to balance between guidance and synthetic quality. To address these challenges, we propose a novel guided method by using the h-transform, a tool that can constrain stochastic processes (e.g., sampling process) under desired conditions. Specifically, we modify the transition probability at each sampling timestep by adding to the original differential equation with a drift function, which approximately steers the generation toward the ideal fine sample. To address unavoidable approximation errors, we introduce a noise-level-aware schedule that gradually de-weights the term as the error increases, ensuring both guidance adherence and high-quality synthesis. Extensive experiments across diverse image and video generation tasks demonstrate the effectiveness and generalization of our method.