Decodificación como Optimización en el Símplex de Probabilidad: Desde Muestreadores Top-K hasta Top-P (Núcleo) y Best-of-K

Resumen

La decodificación se sitúa entre un modelo de lenguaje y todo lo que hacemos con él, sin embargo, aún se trata como un ejercicio heurístico de ajuste de parámetros. Sostenemos que la decodificación debe entenderse como una capa de optimización con bases sólidas: en cada token, resolvemos un problema regularizado sobre el símplex de probabilidades que equilibra la puntuación del modelo con las preferencias y restricciones estructurales. Esta plantilla única recupera como casos especiales la decodificación voraz, el muestreo Softmax, Top-K, Top-P y la esparsidad al estilo Sparsemax, y explica su estructura común a través de condiciones de optimalidad. Más importante aún, el marco facilita la creación de nuevos decodificadores sin recurrir al conocimiento informal. Lo demostramos diseñando Best-of-K (BoK), un objetivo de cobertura anclado en la divergencia KL dirigido a pipelines de múltiples muestras (autoconsistencia, reranking, selección por verificador). BoK se centra en la probabilidad de cubrir buenas alternativas dentro de un presupuesto fijo de K muestras y mejora el rendimiento empírico. Mostramos que dichas muestras pueden mejorar la precisión, por ejemplo, en un +18.6% para Qwen2.5-Math-7B en MATH500 con altas temperaturas de muestreo.

English

Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.

Decodificación como Optimización en el Símplex de Probabilidad: Desde Muestreadores Top-K hasta Top-P (Núcleo) y Best-of-K

Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Resumen

Support