Discrete Markov Brug
Discrete Markov Bridge
May 26, 2025
Auteurs: Hengli Li, Yuxuan Wang, Song-Chun Zhu, Ying Nian Wu, Zilong Zheng
cs.AI
Samenvatting
Discrete diffusie is recentelijk naar voren gekomen als een veelbelovend paradigma in het modelleren van discrete data. Bestaande methoden vertrouwen echter meestal op een vaste overgangsmatrix tijdens de training, wat niet alleen de expressiviteit van latente representaties beperkt, een fundamentele kracht van variationale methoden, maar ook de algehele ontwerpruimte beperkt. Om deze beperkingen aan te pakken, stellen we Discrete Markov Bridge voor, een nieuw raamwerk specifiek ontworpen voor het leren van discrete representaties. Onze aanpak is gebouwd op twee belangrijke componenten: Matrix Learning en Score Learning. We voeren een grondige theoretische analyse uit, waarbij we formele prestatiegaranties vaststellen voor Matrix Learning en de convergentie van het algehele raamwerk bewijzen. Daarnaast analyseren we de ruimtecomplexiteit van onze methode, waarbij we praktische beperkingen aanpakken die in eerdere studies zijn geïdentificeerd. Uitgebreide empirische evaluaties valideren de effectiviteit van de voorgestelde Discrete Markov Bridge, die een Evidence Lower Bound (ELBO) van 1,38 behaalt op de Text8-dataset, waarmee gevestigde baselines worden overtroffen. Bovendien toont het voorgestelde model competitieve prestaties op de CIFAR-10-dataset, met resultaten die vergelijkbaar zijn met die behaald door beeld-specifieke generatiebenaderingen.
English
Discrete diffusion has recently emerged as a promising paradigm in discrete
data modeling. However, existing methods typically rely on a fixed rate
transition matrix during training, which not only limits the expressiveness of
latent representations, a fundamental strength of variational methods, but also
constrains the overall design space. To address these limitations, we propose
Discrete Markov Bridge, a novel framework specifically designed for discrete
representation learning. Our approach is built upon two key components: Matrix
Learning and Score Learning. We conduct a rigorous theoretical analysis,
establishing formal performance guarantees for Matrix Learning and proving the
convergence of the overall framework. Furthermore, we analyze the space
complexity of our method, addressing practical constraints identified in prior
studies. Extensive empirical evaluations validate the effectiveness of the
proposed Discrete Markov Bridge, which achieves an Evidence Lower Bound (ELBO)
of 1.38 on the Text8 dataset, outperforming established baselines. Moreover,
the proposed model demonstrates competitive performance on the CIFAR-10
dataset, achieving results comparable to those obtained by image-specific
generation approaches.