ChatPaper.aiChatPaper

自信が誤解を招くとき:拡散言語モデルにおける接尾辞アンカリングとアンカー近接性信頼度調整

When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

May 27, 2026
著者: Jungwon Park, Jimyeong Kim, Jungmin Ko, Nojun Kwak, Wonjong Rhee
cs.AI

要旨

拡散言語モデルは、マスクされたトークン系列を反復的にノイズ除去することでテキストを復号し、どの位置を復号するかの選択が推論時の中心的な判断となる。ほとんどの訓練不要の復号戦略は、高信頼度の位置が復号可能であると仮定し、位置選択にモデルの信頼度を用いる。本研究では、信頼度が完全非自己回帰(完全非AR)復号を誤誘導する場合を調査することで、この仮定を再検討する。EOTトークンは高い信頼度を得ることがあり、不完全な生成を引き起こす。サフィックスアンカーを挿入することでこの問題を緩和できるが、アンカー近傍で局所的な過信頼が生じ、アンカー隣接トークンが早期に復号される原因となる。これらの問題に対処するため、我々はサフィックスアンカー信頼度調整法を提案する。これは、応答の完了を促進するために短いサフィックスアンカーを挿入し、復号の進行に応じてアンカー近傍の信頼度を調整する、簡素な訓練不要の手法である。これにより、サフィックスアンカリングの応答完了の利点を維持しつつ、アンカー隣接トークンの時期尚早な復号を低減する。テキストのみの推論、視覚言語推論、コード生成の各ベンチマークにおいて、我々の手法は信頼度ベースの完全非AR復号を一貫して向上させ、明示的なEOT抑制を凌駕し、完全非AR生成の並列復号の利点を維持する。
English
Diffusion language models decode text by iteratively denoising masked token sequences, making the choice of which positions to decode a central inference-time decision. Most training-free decoding strategies use model confidence for position selection, assuming that high-confidence positions are ready to be decoded. In this work, we revisit this assumption by studying when confidence misleads fully non-autoregressive (fully non-AR) decoding. EOT tokens can receive high confidence and cause incomplete generation; inserting a suffix anchor can mitigate this issue but introduces local overconfidence near the anchor, causing anchor-adjacent tokens to be decoded too early. To address these issues, we propose Suffix-Anchored Confidence Modulation, a simple training-free method that inserts a short suffix anchor to encourage response completion and modulates confidence near the anchor according to decoding progress. This preserves the response-completion benefit of suffix anchoring while reducing premature decoding of anchor-adjacent tokens. Across text-only reasoning, vision-language reasoning, and code-generation benchmarks, our method consistently improves confidence-based fully non-AR decoding, outperforms explicit EOT suppression, and preserves the parallel decoding advantage of fully non-AR generation.