Dekodierung als Optimierung auf dem Wahrscheinlichkeitssimplex: Von Top-K zu Top-P (Nukleus) zu Best-of-K-Samplern

Zusammenfassung

Decoding fungiert als Schnittstelle zwischen einem Sprachmodell und allen darauf aufbauenden Anwendungen, wird jedoch nach wie vor oft als heuristischer Abstimmschritt behandelt. Wir vertreten die Auffassung, dass Decoding als prinzipielle Optimierungsschicht verstanden werden sollte: Bei jedem Token lösen wir ein regularisiertes Problem über dem Wahrscheinlichkeitssimplex, das die Modellbewertung gegen strukturelle Präferenzen und Nebenbedingungen abwägt. Diese einheitliche Vorlage erfasst gieriges Decoding, Softmax-Sampling, Top-K, Top-P und Sparsemax-artige Sparsity als Spezialfälle und erklärt deren gemeinsame Struktur durch Optimalitätsbedingungen. Noch wichtiger ist, dass der Rahmen die Entwicklung neuer Decoder ohne folkloristische Ansätze erleichtert. Wir demonstrieren dies durch die Entwicklung von Best-of-K (BoK), einem KL-verankerten Coverage-Ziel für Multi-Sample-Pipelines (Self-Consistency, Reranking, Verifier-Auswahl). BoK zielt auf die Wahrscheinlichkeit ab, gute Alternativen innerhalb eines festen K-Sample-Budgets abzudecken, und verbessert die empirische Leistung. Wir zeigen, dass solche Stichproben die Genauigkeit beispielsweise um +18,6 % für Qwen2.5-Math-7B auf MATH500 bei hohen Sampling-Temperaturen steigern können.

English

Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.

Dekodierung als Optimierung auf dem Wahrscheinlichkeitssimplex: Von Top-K zu Top-P (Nukleus) zu Best-of-K-Samplern

Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Zusammenfassung

Support