Top-nσ: Не все логиты, которые вам нужны

Аннотация

Большие языковые модели (LLM) обычно используют жадное декодирование или сэмплирование с низкой температурой для задач рассуждения, отражая предполагаемый компромисс между разнообразием и точностью. Мы оспариваем эту конвенцию, представив top-nsigma, новый метод сэмплирования, который работает непосредственно с логитами перед softmax, используя статистический порог. Наш ключевой инсайт заключается в том, что логиты естественным образом разделяются на область шумного распределения по Гауссу и отдельную информативную область, обеспечивая эффективную фильтрацию токенов без сложных вероятностных манипуляций. В отличие от существующих методов (например, top-p, min-p), которые случайно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство сэмплирования независимо от масштабирования температуры. Мы также предоставляем теоретический анализ top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, сосредоточенных на рассуждениях, демонстрируют, что наш метод не только превосходит существующие методы сэмплирования, но и превосходит жадное декодирование, сохраняя при этом стабильную производительность даже при высоких температурах.

English

Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Top-nσ: Не все логиты, которые вам нужны

Top-nσ: Not All Logits Are You Need

Аннотация

Support