Top-nσ: Не все логиты, которые вам нужны
Top-nσ: Not All Logits Are You Need
November 12, 2024
Авторы: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI
Аннотация
Большие языковые модели (LLM) обычно используют жадное декодирование или сэмплирование с низкой температурой для задач рассуждения, отражая предполагаемый компромисс между разнообразием и точностью. Мы оспариваем эту конвенцию, представив top-nsigma, новый метод сэмплирования, который работает непосредственно с логитами перед softmax, используя статистический порог. Наш ключевой инсайт заключается в том, что логиты естественным образом разделяются на область шумного распределения по Гауссу и отдельную информативную область, обеспечивая эффективную фильтрацию токенов без сложных вероятностных манипуляций. В отличие от существующих методов (например, top-p, min-p), которые случайно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство сэмплирования независимо от масштабирования температуры. Мы также предоставляем теоретический анализ top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, сосредоточенных на рассуждениях, демонстрируют, что наш метод не только превосходит существующие методы сэмплирования, но и превосходит жадное декодирование, сохраняя при этом стабильную производительность даже при высоких температурах.
English
Large language models (LLMs) typically employ greedy decoding or
low-temperature sampling for reasoning tasks, reflecting a perceived trade-off
between diversity and accuracy. We challenge this convention by introducing
top-nsigma, a novel sampling method that operates directly on pre-softmax
logits by leveraging a statistical threshold. Our key insight is that logits
naturally separate into a Gaussian-distributed noisy region and a distinct
informative region, enabling efficient token filtering without complex
probability manipulations. Unlike existing methods (e.g., top-p, min-p)
that inadvertently include more noise tokens at higher temperatures,
top-nsigma maintains a stable sampling space regardless of temperature
scaling. We also provide a theoretical analysis of top-nsigma to better
understand its behavior. The extensive experimental results across four
reasoning-focused datasets demonstrate that our method not only outperforms
existing sampling approaches but also surpasses greedy decoding, while
maintaining consistent performance even at high temperatures.Summary
AI-Generated Summary