Wanneer vertrouwen misleidt: suffixverankering en ankernabijheidsvertrouwensmodulatie voor diffusietaalmodellen

Samenvatting

Diffusietaalmodellen genereren tekst door iteratief gecodeerde tokenreeksen te ontruisen, waarbij de keuze welke posities gedecodeerd worden een centrale beslissing tijdens het redeneren is. De meeste trainingsvrije decoderingstrategieën gebruiken modelvertrouwen voor positiekeuze, in de veronderstelling dat posities met hoge vertrouwen klaar zijn om gedecodeerd te worden. In dit werk herzien we deze aanname door te bestuderen wanneer vertrouwen misleidend is bij volledig niet-autoregressieve (volledig niet-AR) decodering. EOT-tokens kunnen hoge vertrouwen krijgen en onvolledige generatie veroorzaken; het invoegen van een suffixanker kan dit probleem verminderen, maar leidt tot lokale oververtrouwen nabij het anker, waardoor anker-aanliggende tokens te vroeg worden gedecodeerd. Om deze problemen aan te pakken stellen we Suffix-Anchored Confidence Modulation voor, een eenvoudige, trainingsvrije methode die een kort suffixanker invoegt om responsvoltooiing te stimuleren en het vertrouwen nabij het anker moduleert op basis van de decodervoortgang. Dit behoudt het voordeel van responsvoltooiing door suffixverankering, terwijl voortijdige decodering van anker-aanliggende tokens wordt verminderd. Over tekstgebaseerde redeneerbenchmarks, visueel-linguïstische redeneerbenchmarks en codegeneratiebenchmarks verbetert onze methode consistent de op vertrouwen gebaseerde volledig niet-AR decodering, presteert beter dan expliciete EOT-onderdrukking en behoudt het parallelle decodervoordeel van volledig niet-AR generatie.

English

Diffusion language models decode text by iteratively denoising masked token sequences, making the choice of which positions to decode a central inference-time decision. Most training-free decoding strategies use model confidence for position selection, assuming that high-confidence positions are ready to be decoded. In this work, we revisit this assumption by studying when confidence misleads fully non-autoregressive (fully non-AR) decoding. EOT tokens can receive high confidence and cause incomplete generation; inserting a suffix anchor can mitigate this issue but introduces local overconfidence near the anchor, causing anchor-adjacent tokens to be decoded too early. To address these issues, we propose Suffix-Anchored Confidence Modulation, a simple training-free method that inserts a short suffix anchor to encourage response completion and modulates confidence near the anchor according to decoding progress. This preserves the response-completion benefit of suffix anchoring while reducing premature decoding of anchor-adjacent tokens. Across text-only reasoning, vision-language reasoning, and code-generation benchmarks, our method consistently improves confidence-based fully non-AR decoding, outperforms explicit EOT suppression, and preserves the parallel decoding advantage of fully non-AR generation.