Décodage comme optimisation sur le simplexe de probabilité : des échantillonneurs Top-K aux Top-P (Nucleus) et Best-of-K

Résumé

Le décodage se situe entre un modèle de langage et tout ce que nous en faisons, pourtant il est encore traité comme un simple réglage heuristique de paramètres. Nous soutenons que le décodage doit être compris comme une couche d'optimisation fondée sur des principes : à chaque token, nous résolvons un problème régularisé sur le simplexe de probabilité qui équilibre le score du modèle avec des préférences et contraintes structurelles. Ce modèle unique retrouve comme cas particuliers le décodage glouton, l'échantillonnage Softmax, Top-K, Top-P, et la parcimonie de type Sparsemax, et explique leur structure commune via des conditions d'optimalité. Plus important encore, ce cadre permet d'inventer facilement de nouveaux décodeurs sans recourir à des méthodes empiriques. Nous le démontrons en concevant Best-of-K (BoK), un objectif de couverture ancré par la divergence KL visant les pipelines multi-échantillons (autocohérence, reranking, sélection par vérificateur). BoK cible la probabilité de couvrir de bonnes alternatives avec un budget fixe de K échantillons et améliore les performances empiriques. Nous montrons que de tels échantillons peuvent améliorer la précision, par exemple de +18,6 % pour Qwen2.5-Math-7B sur MATH500 à des températures d'échantillonnage élevées.

English

Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.

Décodage comme optimisation sur le simplexe de probabilité : des échantillonneurs Top-K aux Top-P (Nucleus) et Best-of-K

Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Résumé

Support