Decodifica come Ottimizzazione sul Simplesso delle Probabilità: Dai Campionatori Top-K a Top-P (Nucleo) fino ai Campionatori Best-of-K
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers
February 20, 2026
Autori: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar
cs.AI
Abstract
La decodifica si colloca tra un modello linguistico e tutto ciò che facciamo con esso, eppure viene ancora trattata come un esercizio euristico di regolazione di parametri. Sosteniamo che la decodifica dovrebbe essere compresa come un livello di ottimizzazione principiato: ad ogni token, risolviamo un problema regolarizzato sul simplesso delle probabilità che bilancia il punteggio del modello con preferenze e vincoli strutturali. Questo singolo schema ricava come casi particolari la decodifica greedy, il campionamento Softmax, Top-K, Top-P e la sparsità in stile Sparsemax, e ne spiega la struttura comune attraverso condizioni di ottimalità. Ancora più importante, il framework rende facile inventare nuovi decoder senza ricorrere a conoscenze empiriche. Lo dimostriamo progettando Best-of-K (BoK), un obiettivo di copertura ancorato alla KL divergence mirato a pipeline multi-campione (auto-consistenza, reranking, selezione del verificatore). BoK mira alla probabilità di coprire buone alternative entro un budget fisso di K campioni e migliora le prestazioni empiriche. Mostriamo che tali campioni possono migliorare l'accuratezza, ad esempio, del +18,6% per Qwen2.5-Math-7B su MATH500 ad alte temperature di campionamento.
English
Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.