Uniforme Diffusionsmodelle revisited: Leave-One-Out-Denoiser und Reformulierung des absorbierenden Zustands

Zusammenfassung

Diskrete Diffusionsmodelle werden oft durch Clean-Data-Vorhersage trainiert, aber die Vorhersage kann auf verschiedene Weisen genutzt werden, um die Rückwärtsdynamik zu definieren. In Maskierten Diffusionsmodellen (MDM) fallen diese Entscheidungen weitgehend zusammen, während sie bei Uniformen Diffusionsmodellen (UDM) divergieren. Wir zeigen, dass die Standard-Plug-in-Brückenparametrisierung für UDM nicht durch das Denoising-Posterior optimiert wird, sondern durch ein Leave-One-Out-Posterior, das jedes saubere Token vorhersagt, ohne seine eigene verrauschte Beobachtung zu verwenden. Dies identifiziert einen Missklang zwischen dem Plug-in-ELBO und dem üblichen Kreuzentropie-Denoising-Ziel. Wir charakterisieren das Leave-One-Out-Ziel und leiten exakte Umrechnungen zwischen dem Denoiser, dem Leave-One-Out-Posterior und dem Score her. Diese Umrechnungen erlauben es uns, Parametrisierung und Trainingsziel zu entkoppeln. Unsere Ergebnisse führen auch zu Inferenzverbesserungen ohne zusätzliches Training durch einen informierten Prädiktor-Korrektor-Sampler und verbessertes Temperatursampling basierend auf dem Leave-One-Out-Prädiktor. Wir führen weiterhin eine Absorbing-State-Neuformulierung der uniformen Diffusion ein, die das gemeinsame UDM-Gesetz bewahrt, während es in maskierte-diffusionsähnliche Sampling-Operationen zerlegt wird, mit einfacheren Denoising-Posteriors, Carry-Over-Entmaskierung und einem natürlichen Remasking-Mechanismus. In der Sprachmodellierung verbessern Leave-One-Out-Parametrisierungen konsistent die UDM-Generierung, während die Absorbing-Konstruktion die maskierte Diffusion erreicht oder übertrifft. Diese Ergebnisse deuten darauf hin, dass die empirische Lücke zwischen maskierter und uniformer Diffusion weniger durch die Wahl der Marginalen selbst als durch die Parametrisierung und das Sampling-Design verursacht wird. Der Code und die Modelle sind unter https://github.com/samsongourevitch/rev_udm zu finden.

English

Discrete diffusion models are often trained through clean-data prediction, but the prediction can be used in different ways to define the reverse dynamics. In Masked Diffusion Models (MDM) these choices largely coincide, whereas in Uniform Diffusion Models (UDM) they do not. We show that the standard plug-in bridge parameterization for UDM is not optimized by the denoising posterior, but by a leave-one-out posterior that predicts each clean token without using its own noisy observation. This identifies a mismatch between the plug-in ELBO and the usual cross-entropy denoising objective. We characterize the leave-one-out target and derive exact conversions between the denoiser, the leave-one-out posterior, and the score. These conversions allow us to disentangle parameterization and training objective. Our results also lead to inference improvements without any additional training through an informed predictor-corrector sampler and improved temperature sampling based on the leave-one-out predictor. We further introduce an absorbing-state reformulation of uniform diffusion that preserves the UDM joint law while decomposing it into masked-diffusion-like sampling operations, with simpler denoising posteriors, carry-over unmasking, and a natural remasking mechanism. On language modeling, leave-one-out parameterizations consistently improve UDM generation, while the absorbing construction matches or surpasses masked diffusion. These results suggest that the empirical gap between masked and uniform diffusion is driven less by the choice of marginals themselves than by parameterization and sampling design. The code and models can be found at https://github.com/samsongourevitch/rev_udm.