ChatPaper.aiChatPaper

Zelfbelonend Sequentieel Monte Carlo voor Gemaskeerde Diffusie Taalmodellen

Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

February 2, 2026
Auteurs: Ziwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön
cs.AI

Samenvatting

Dit werk presenteert self-rewarding sequential Monte Carlo (SMC), een schaalalgoritme voor inferentietijd dat effectieve sampling van gemaskeerde diffusie-taalmodellen (MDLM's) mogelijk maakt. Ons algoritme vindt zijn oorsprong in de observatie dat de meeste bestaande MDLM's vertrouwen op een op vertrouwen gebaseerde samplingstrategie, waarbij bij elke stap alleen tokens met de hoogste voorspellingszekerheid worden behouden. Dit beperkt de generatie tot een ruisgevoelig, gretig decodeerparadigma, wat leidt tot een onvermijdelijke ineenstorting van de diversiteit aan mogelijke paden. Wij pakken dit probleem aan door meerdere interacterende diffusieprocessen, deeltjes genaamd, parallel te lanceren voor trajectverkenning. Cruciaal is dat we het trajectniveau-vertrouwen introduceren als een zelfbelonend signaal voor het toekennen van belangrijkheidsgewichten aan deeltjes. Tijdens het sampling worden deeltjes iteratief gewogen en hermonsterd om de generatie systematisch te sturen naar globaal zelfverzekerde, hoogwaardige samples. Onze self-rewarding SMC wordt geverifieerd op diverse gemaskeerde diffusie-taalmodellen en benchmarks, waarbij aanzienlijke verbetering wordt bereikt zonder extra training of beloningsrichtlijnen, terwijl parallelle inferentiecapaciteit effectief wordt omgezet in verbeterde samplingkwaliteit. Onze code is beschikbaar op https://github.com/Algolzw/self-rewarding-smc.
English
This work presents self-rewarding sequential Monte Carlo (SMC), an inference-time scaling algorithm enabling effective sampling of masked diffusion language models (MDLMs). Our algorithm stems from the observation that most existing MDLMs rely on a confidence-based sampling strategy, where only tokens with the highest prediction confidence are preserved at each step. This restricts the generation to a noise-sensitive, greedy decoding paradigm, resulting in an inevitable collapse in the diversity of possible paths. We address this problem by launching multiple interacting diffusion processes in parallel, referred to as particles, for trajectory exploration. Importantly, we introduce the trajectory-level confidence as a self-rewarding signal for assigning particle importance weights. During sampling, particles are iteratively weighted and resampled to systematically steer generation towards globally confident, high-quality samples. Our self-rewarding SMC is verified on various masked diffusion language models and benchmarks, achieving significant improvement without extra training or reward guidance, while effectively converting parallel inference capacity into improved sampling quality. Our code is available at https://github.com/Algolzw/self-rewarding-smc.
PDF31February 6, 2026