ChatPaper.aiChatPaper

Monte Carlo Sequenziale Auto-Rinforzante per Modelli Linguistici di Diffusione con Mascheramento

Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

February 2, 2026
Autori: Ziwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön
cs.AI

Abstract

Questo lavoro presenta il Sequential Monte Carlo (SMC) auto-premiante, un algoritmo di scaling durante l'inferenza che consente un campionamento efficace dei modelli linguistici di diffusione mascherata (MDLM). Il nostro algoritmo nasce dall'osservazione che la maggior parte degli MDLM esistenti si basa su una strategia di campionamento basata sulla confidenza, in cui ad ogni passo vengono preservati solo i token con la confidenza predittiva più alta. Ciò vincola la generazione a un paradigma di decodifica avido e sensibile al rumore, risultando in un inevitabile collasso della diversità dei percorsi possibili. Affrontiamo questo problema lanciando in parallelo più processi di diffusione interagenti, denominati particelle, per l'esplorazione delle traiettorie. È importante sottolineare che introduciamo la confidenza a livello di traiettoria come segnale auto-premiante per assegnare i pesi di importanza delle particelle. Durante il campionamento, le particelle vengono iterativamente pesate e ricampionate per indirizzare sistematicamente la generazione verso campioni globalmente confidenti e di alta qualità. Il nostro SMC auto-premiante è stato verificato su vari modelli linguistici di diffusione mascherata e benchmark, ottenendo un miglioramento significativo senza addestramento aggiuntivo o guida di ricompensa, convertendo efficacemente la capacità di inferenza parallela in una qualità di campionamento migliorata. Il nostro codice è disponibile all'indirizzo https://github.com/Algolzw/self-rewarding-smc.
English
This work presents self-rewarding sequential Monte Carlo (SMC), an inference-time scaling algorithm enabling effective sampling of masked diffusion language models (MDLMs). Our algorithm stems from the observation that most existing MDLMs rely on a confidence-based sampling strategy, where only tokens with the highest prediction confidence are preserved at each step. This restricts the generation to a noise-sensitive, greedy decoding paradigm, resulting in an inevitable collapse in the diversity of possible paths. We address this problem by launching multiple interacting diffusion processes in parallel, referred to as particles, for trajectory exploration. Importantly, we introduce the trajectory-level confidence as a self-rewarding signal for assigning particle importance weights. During sampling, particles are iteratively weighted and resampled to systematically steer generation towards globally confident, high-quality samples. Our self-rewarding SMC is verified on various masked diffusion language models and benchmarks, achieving significant improvement without extra training or reward guidance, while effectively converting parallel inference capacity into improved sampling quality. Our code is available at https://github.com/Algolzw/self-rewarding-smc.
PDF43February 8, 2026