Wenn Konfidenz in die Irre führt: Suffix-Verankerung und konfidenzmodulation durch Ankernähe für Diffusionssprachmodelle

Zusammenfassung

Diffusionssprachmodelle dekodieren Text, indem sie iterativ maskierte Token-Sequenzen entrauschen, wobei die Wahl der zu dekodierenden Positionen eine zentrale Inferenzzeitentscheidung darstellt. Die meisten trainingsfreien Dekodierungsstrategien nutzen Modellkonfidenz zur Positionsauswahl, unter der Annahme, dass Positionen mit hoher Konfidenz bereit zur Dekodierung sind. In dieser Arbeit überprüfen wir diese Annahme, indem wir untersuchen, wann Konfidenz das vollständig nicht-autoregressive (vollständig nicht-AR) Dekodieren in die Irre führt. EOT-Token können hohe Konfidenz erhalten und eine unvollständige Generierung verursachen; das Einfügen eines Suffix-Ankers kann dieses Problem mildern, führt jedoch zu lokaler Überkonfidenz in der Nähe des Ankers, wodurch ankerbenachbarte Token zu früh dekodiert werden. Um diese Probleme zu adressieren, schlagen wir Suffix-Anchored Confidence Modulation vor, eine einfache trainingsfreie Methode, die einen kurzen Suffix-Anker einfügt, um die Antwortvervollständigung zu fördern, und die Konfidenz in der Nähe des Ankers in Abhängigkeit vom Dekodierungsfortschritt moduliert. Dies bewahrt den Vorteil der Antwortvervollständigung durch Suffix-Ankerung, während es die vorzeitige Dekodierung ankerbenachbarter Token reduziert. In Benchmarks für textbasierte Argumentation, visuell-sprachliche Argumentation und Codegenerierung verbessert unsere Methode durchgängig die konfidenzbasierte vollständig nicht-AR-Dekodierung, übertrifft explizite EOT-Unterdrückung und bewahrt den parallelen Dekodierungsvorteil der vollständig nicht-AR-Generierung.

English

Diffusion language models decode text by iteratively denoising masked token sequences, making the choice of which positions to decode a central inference-time decision. Most training-free decoding strategies use model confidence for position selection, assuming that high-confidence positions are ready to be decoded. In this work, we revisit this assumption by studying when confidence misleads fully non-autoregressive (fully non-AR) decoding. EOT tokens can receive high confidence and cause incomplete generation; inserting a suffix anchor can mitigate this issue but introduces local overconfidence near the anchor, causing anchor-adjacent tokens to be decoded too early. To address these issues, we propose Suffix-Anchored Confidence Modulation, a simple training-free method that inserts a short suffix anchor to encourage response completion and modulates confidence near the anchor according to decoding progress. This preserves the response-completion benefit of suffix anchoring while reducing premature decoding of anchor-adjacent tokens. Across text-only reasoning, vision-language reasoning, and code-generation benchmarks, our method consistently improves confidence-based fully non-AR decoding, outperforms explicit EOT suppression, and preserves the parallel decoding advantage of fully non-AR generation.