Uniforme diffusiemodellen opnieuw bezocht: leave-one-out ontruiser en herformulering van absorberende toestand

Samenvatting

Discrete diffusiemodellen worden vaak getraind door middel van het voorspellen van schone data, maar de voorspelling kan op verschillende manieren worden gebruikt om de omgekeerde dynamica te definiëren. In Gemaskeerde Diffusiemodellen (MDM) vallen deze keuzes grotendeels samen, terwijl dit in Uniforme Diffusiemodellen (UDM) niet het geval is. We tonen aan dat de standaard plug-in-brugparameterisatie voor UDM niet wordt geoptimaliseerd door de denoising posterior, maar door een leave-one-out posterior die elk schoon token voorspelt zonder gebruik te maken van zijn eigen ruizige observatie. Dit identificeert een mismatch tussen de plug-in ELBO en de gebruikelijke kruisentropie-denoisingdoelstelling. We karakteriseren het leave-one-out-doel en leiden exacte conversies af tussen de denoiser, de leave-one-out posterior en de score. Deze conversies stellen ons in staat om parameterisatie en trainingsdoelstelling te ontwarren. Onze resultaten leiden ook tot inferentieverbeteringen zonder extra training via een geïnformeerde predictor-corrector sampler en verbeterde temperatuursampling op basis van de leave-one-out-voorspeller. We introduceren verder een absorberende-toestandherformulering van uniforme diffusie die de UDM-gezamenlijke wet behoudt terwijl deze wordt ontleed in gemaskeerde-diffusieachtige samplingoperaties, met eenvoudigere denoising posteriors, overloop-ontmaskering en een natuurlijk hermaskeringsmechanisme. Voor taalmodellering verbeteren leave-one-out-parameterisaties consequent de UDM-generatie, terwijl de absorberende constructie gemaskeerde diffusie evenaart of overtreft. Deze resultaten suggereren dat de empirische kloof tussen gemaskeerde en uniforme diffusie minder wordt gedreven door de keuze van de marginalen zelf dan door parameterisatie en samplingontwerp. De code en modellen zijn te vinden op https://github.com/samsongourevitch/rev_udm.

English

Discrete diffusion models are often trained through clean-data prediction, but the prediction can be used in different ways to define the reverse dynamics. In Masked Diffusion Models (MDM) these choices largely coincide, whereas in Uniform Diffusion Models (UDM) they do not. We show that the standard plug-in bridge parameterization for UDM is not optimized by the denoising posterior, but by a leave-one-out posterior that predicts each clean token without using its own noisy observation. This identifies a mismatch between the plug-in ELBO and the usual cross-entropy denoising objective. We characterize the leave-one-out target and derive exact conversions between the denoiser, the leave-one-out posterior, and the score. These conversions allow us to disentangle parameterization and training objective. Our results also lead to inference improvements without any additional training through an informed predictor-corrector sampler and improved temperature sampling based on the leave-one-out predictor. We further introduce an absorbing-state reformulation of uniform diffusion that preserves the UDM joint law while decomposing it into masked-diffusion-like sampling operations, with simpler denoising posteriors, carry-over unmasking, and a natural remasking mechanism. On language modeling, leave-one-out parameterizations consistently improve UDM generation, while the absorbing construction matches or surpasses masked diffusion. These results suggest that the empirical gap between masked and uniform diffusion is driven less by the choice of marginals themselves than by parameterization and sampling design. The code and models can be found at https://github.com/samsongourevitch/rev_udm.