Decodificação como Otimização no Simplex de Probabilidade: Dos Amostradores Top-K aos Top-P (Núcleo) e Best-of-K

Resumo

A decodificação situa-se entre um modelo de linguagem e tudo o que fazemos com ele, mas ainda é tratada como um exercício heurístico de ajuste de parâmetros. Argumentamos que a decodificação deve ser compreendida como uma camada de otimização fundamentada: em cada token, resolvemos um problema regularizado sobre o simplex de probabilidades que equilibra a pontuação do modelo com preferências e restrições estruturais. Este modelo único recupera a decodificação gulosa, a amostragem Softmax, Top-K, Top-P e a esparsidade no estilo Sparsemax como casos especiais, e explica a sua estrutura comum através de condições de otimalidade. Mais importante, a estrutura facilita a criação de novos decodificadores sem depender de conhecimento informal. Demonstramos isto projetando o Best-of-K (BoK), um objetivo de cobertura ancorado na divergência KL (Kullback-Leibler) destinado a pipelines de múltiplas amostras (autoconsistência, reclassificação, seleção por verificador). O BoK tem como alvo a probabilidade de cobrir boas alternativas dentro de um orçamento fixo de K amostras e melhora o desempenho empírico. Mostramos que tais amostras podem melhorar a precisão em, por exemplo, +18,6% para o Qwen2.5-Math-7B no conjunto MATH500 em temperaturas de amostragem elevadas.

English

Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.

Decodificação como Otimização no Simplex de Probabilidade: Dos Amostradores Top-K aos Top-P (Núcleo) e Best-of-K

Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Resumo

Support