Monte Carlo Sequencial com Autorrecompensa para Modelos de Linguagem de Difusão Mascarados
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models
February 2, 2026
Autores: Ziwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön
cs.AI
Resumo
Este trabalho apresenta o método de Monte Carlo Sequencial com Autopremiação (SMC), um algoritmo de escalonamento durante a inferência que possibilita a amostragem eficaz de modelos de linguagem de difusão mascarada (MDLMs). Nosso algoritmo surge da observação de que a maioria dos MDLMs existentes depende de uma estratégia de amostragem baseada em confiança, na qual apenas os tokens com a maior confiança de predição são preservados a cada etapa. Isso restringe a geração a um paradigma de decodificação gulosa e sensível ao ruído, resultando em um colapso inevitável na diversidade de caminhos possíveis. Nós abordamos este problema lançando múltiplos processos de difusão interagentes em paralelo, denominados partículas, para a exploração de trajetórias. De forma crucial, introduzimos a confiança a nível de trajetória como um sinal de autopremiação para atribuir pesos de importância às partículas. Durante a amostragem, as partículas são iterativamente ponderadas e reamostradas para orientar sistematicamente a geração em direção a amostras globalmente confiantes e de alta qualidade. O nosso SMC com autopremiação é validado em vários modelos de linguagem de difusão mascarada e benchmarks, alcançando uma melhoria significativa sem treinamento adicional ou orientação por recompensas, ao mesmo tempo que converte eficazmente a capacidade de inferência paralela em qualidade de amostragem aprimorada. Nosso código está disponível em https://github.com/Algolzw/self-rewarding-smc.
English
This work presents self-rewarding sequential Monte Carlo (SMC), an inference-time scaling algorithm enabling effective sampling of masked diffusion language models (MDLMs). Our algorithm stems from the observation that most existing MDLMs rely on a confidence-based sampling strategy, where only tokens with the highest prediction confidence are preserved at each step. This restricts the generation to a noise-sensitive, greedy decoding paradigm, resulting in an inevitable collapse in the diversity of possible paths. We address this problem by launching multiple interacting diffusion processes in parallel, referred to as particles, for trajectory exploration. Importantly, we introduce the trajectory-level confidence as a self-rewarding signal for assigning particle importance weights. During sampling, particles are iteratively weighted and resampled to systematically steer generation towards globally confident, high-quality samples. Our self-rewarding SMC is verified on various masked diffusion language models and benchmarks, achieving significant improvement without extra training or reward guidance, while effectively converting parallel inference capacity into improved sampling quality. Our code is available at https://github.com/Algolzw/self-rewarding-smc.