Quand la confiance induit en erreur : Ancrage de suffixe et modulation de la confiance par proximité d'ancrage pour les modèles de langage à diffusion

Résumé

Les modèles de langage par diffusion décodent le texte en débruisant itérativement des séquences de tokens masqués, ce qui fait du choix des positions à décoder une décision centrale au moment de l'inférence. La plupart des stratégies de décodage sans entraînement utilisent la confiance du modèle pour la sélection des positions, en supposant que les positions à haute confiance sont prêtes à être décodées. Dans ce travail, nous réexaminons cette hypothèse en étudiant quand la confiance induit en erreur le décodage complètement non autorégressif (non-AR complet). Les tokens EOT peuvent recevoir une confiance élevée et entraîner une génération incomplète ; l'insertion d'une ancre de suffixe peut atténuer ce problème mais introduit une surconfiance locale près de l'ancre, provoquant un décodage prématuré des tokens adjacents à l'ancre. Pour remédier à ces problèmes, nous proposons la Modulation de Confiance par Ancre de Suffixe, une méthode simple sans entraînement qui insère une courte ancre de suffixe pour encourager la complétion de la réponse et module la confiance près de l'ancre en fonction de la progression du décodage. Cela préserve l'avantage de complétion de réponse de l'ancrage par suffixe tout en réduisant le décodage prématuré des tokens adjacents à l'ancre. Sur des benchmarks de raisonnement textuel, de raisonnement vision-langage et de génération de code, notre méthode améliore systématiquement le décodage non-AR complet basé sur la confiance, surpasse la suppression explicite des tokens EOT, et préserve l'avantage du décodage parallèle de la génération non-AR complète.

English

Diffusion language models decode text by iteratively denoising masked token sequences, making the choice of which positions to decode a central inference-time decision. Most training-free decoding strategies use model confidence for position selection, assuming that high-confidence positions are ready to be decoded. In this work, we revisit this assumption by studying when confidence misleads fully non-autoregressive (fully non-AR) decoding. EOT tokens can receive high confidence and cause incomplete generation; inserting a suffix anchor can mitigate this issue but introduces local overconfidence near the anchor, causing anchor-adjacent tokens to be decoded too early. To address these issues, we propose Suffix-Anchored Confidence Modulation, a simple training-free method that inserts a short suffix anchor to encourage response completion and modulates confidence near the anchor according to decoding progress. This preserves the response-completion benefit of suffix anchoring while reducing premature decoding of anchor-adjacent tokens. Across text-only reasoning, vision-language reasoning, and code-generation benchmarks, our method consistently improves confidence-based fully non-AR decoding, outperforms explicit EOT suppression, and preserves the parallel decoding advantage of fully non-AR generation.