ChatPaper.aiChatPaper

마스킹 확산 언어 모델을 위한 자기 보상 순차 몬테카를로

Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

February 2, 2026
저자: Ziwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön
cs.AI

초록

본 연구에서는 마스크 확산 언어 모델(MDLM)의 효과적인 샘플링을 가능하게 하는 추론 시간 스케일링 알고리즘인 자기 보상 순차 몬테카를로(SMC)를 제안한다. 우리의 알고리즘은 기존 MDLM 대부분이 각 단계에서 예측 신뢰도가 가장 높은 토큰만을 보존하는 신뢰도 기반 샘플링 전략에 의존한다는 관찰에서 출발한다. 이는 생성 과정을 노이즈에 민감한 탐욕적 디코딩 패러다임으로 제한하여 가능한 경로의 다양성이 필연적으로 붕괴되는 결과를 초래한다. 우리는 이러한 문제를 해결하기 위해 궤적 탐색을 위해 여러 상호작용 확산 과정(입자)을 병렬로 실행하는 방법을 제안한다. 특히 궤적 수준 신뢰도를 자기 보상 신호로 도입하여 입자 중요도 가중치를 할당한다. 샘플링 과정에서 입자는 반복적으로 가중치가 부여되고 재샘플링되어 생성 과정을 전역적으로 신뢰도가 높은 고품질 샘플로 체계적으로 유도한다. 우리의 자기 보상 SMC는 다양한 마스크 확산 언어 모델과 벤치마크에서 추가 학습이나 보상 지도 없이도 상당한 성능 향상을 달성하며, 병렬 추론 능력을 향상된 샘플링 품질로 효과적으로 전환함을 입증하였다. 코드는 https://github.com/Algolzw/self-rewarding-smc에서 확인할 수 있다.
English
This work presents self-rewarding sequential Monte Carlo (SMC), an inference-time scaling algorithm enabling effective sampling of masked diffusion language models (MDLMs). Our algorithm stems from the observation that most existing MDLMs rely on a confidence-based sampling strategy, where only tokens with the highest prediction confidence are preserved at each step. This restricts the generation to a noise-sensitive, greedy decoding paradigm, resulting in an inevitable collapse in the diversity of possible paths. We address this problem by launching multiple interacting diffusion processes in parallel, referred to as particles, for trajectory exploration. Importantly, we introduce the trajectory-level confidence as a self-rewarding signal for assigning particle importance weights. During sampling, particles are iteratively weighted and resampled to systematically steer generation towards globally confident, high-quality samples. Our self-rewarding SMC is verified on various masked diffusion language models and benchmarks, achieving significant improvement without extra training or reward guidance, while effectively converting parallel inference capacity into improved sampling quality. Our code is available at https://github.com/Algolzw/self-rewarding-smc.
PDF31February 6, 2026