Декодирование как оптимизация на вероятностном симплексе: от Top-K к Top-P (ядерному) и Best-of-K сэмплерам
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers
February 20, 2026
Авторы: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar
cs.AI
Аннотация
Декодирование занимает промежуточное положение между языковой моделью и всеми задачами, которые мы с её помощью решаем, однако до сих пор воспринимается как эвристический процесс настройки параметров. Мы утверждаем, что декодирование следует понимать как принципиальный оптимизационный слой: на каждом шаге генерации токена мы решаем регуляризованную задачу на симплексе вероятностей, которая находит баланс между оценкой модели и структурными предпочтениями или ограничениями. Эта единая схема охватывает как частные случаи жадное декодирование, сэмплирование Softmax, Top-K, Top-P и разреженность в стиле Sparsemax, объясняя их общую структуру через условия оптимальности. Что важнее, данный подход позволяет легко создавать новые декодеры, не прибегая к фольклору эвристик. Мы демонстрируем это, разработав Best-of-K (BoK) — цель покрытия, закреплённая дивергенцией Кульбака-Лейблера, для конвейеров, использующих множественные сэмплы (самосогласованность, переранжирование, выбор верификатора). BoK нацелена на вероятность покрытия хороших альтернатив в рамках фиксированного бюджета из K сэмплов и улучшает эмпирические показатели. Мы показываем, что такие сэмплы могут повысить точность, например, на +18.6% для модели Qwen2.5-Math-7B на наборе MATH500 при высоких температурах сэмплирования.
English
Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.