Decoderen als Optimalisatie op de Waarschijnlijkheidssimplex: Van Top-K naar Top-P (Nucleus) naar Best-van-K Samplers

Samenvatting

Decoderen bevindt zich tussen een taalmodel en alles wat we ermee doen, maar wordt nog steeds behandeld als een heuristische oefening in het afstellen van knoppen. Wij beargumenteren dat decoderen moet worden begrepen als een principiële optimalisatielaag: bij elke token lossen we een geregulariseerd probleem op de waarschijnlijkheidssimplex op, dat een afweging maakt tussen de modelscore en structurele voorkeuren en beperkingen. Dit enkele template herleidt gulzig decoderen, Softmax-steekproefname, Top-K, Top-P en Sparsemax-achtige sparseheid als speciale gevallen, en verklaart hun gemeenschappelijke structuur via optimaliteitscondities. Belangrijker nog, het raamwerk maakt het gemakkelijk om nieuwe decoders te ontwerpen zonder folklore. We demonstreren dit door Best-of-K (BoK) te ontwerpen, een KL-verankerde dekkingsobjectief gericht op multi-sample pijplijnen (zelfconsistentie, herrangschikking, verifiëerselectie). BoK mikt op de waarschijnlijkheid om goede alternatieven te dekken binnen een vast K-sample budget en verbetert de empirische prestaties. We tonen aan dat dergelijke steekproeven de nauwkeurigheid kunnen verbeteren, bijvoorbeeld met +18,6% voor Qwen2.5-Math-7B op MATH500 bij hoge steekproeftemperaturen.

English

Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.

Decoderen als Optimalisatie op de Waarschijnlijkheidssimplex: Van Top-K naar Top-P (Nucleus) naar Best-van-K Samplers

Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Samenvatting

Support