Top-nσ: Nem Todos os Logits que Você Precisa
Top-nσ: Not All Logits Are You Need
November 12, 2024
Autores: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI
Resumo
Os modelos de linguagem grandes (LLMs) normalmente utilizam decodificação gulosa ou amostragem de baixa temperatura para tarefas de raciocínio, refletindo um suposto equilíbrio entre diversidade e precisão. Desafiamos essa convenção ao introduzir o top-nsigma, um novo método de amostragem que opera diretamente nos logitos pré-softmax, aproveitando um limiar estatístico. Nossa principal percepção é que os logitos naturalmente se separam em uma região ruidosa distribuída de forma gaussiana e uma região informativa distinta, permitindo a filtragem eficiente de tokens sem manipulações complexas de probabilidade. Ao contrário de métodos existentes (por exemplo, top-p, min-p) que incluem inadvertidamente mais tokens de ruído em temperaturas mais altas, o top-nsigma mantém um espaço de amostragem estável independentemente da escala de temperatura. Também fornecemos uma análise teórica do top-nsigma para melhor compreender seu comportamento. Os extensos resultados experimentais em quatro conjuntos de dados focados em raciocínio demonstram que nosso método não apenas supera abordagens de amostragem existentes, mas também ultrapassa a decodificação gulosa, mantendo um desempenho consistente mesmo em altas temperaturas.
English
Large language models (LLMs) typically employ greedy decoding or
low-temperature sampling for reasoning tasks, reflecting a perceived trade-off
between diversity and accuracy. We challenge this convention by introducing
top-nsigma, a novel sampling method that operates directly on pre-softmax
logits by leveraging a statistical threshold. Our key insight is that logits
naturally separate into a Gaussian-distributed noisy region and a distinct
informative region, enabling efficient token filtering without complex
probability manipulations. Unlike existing methods (e.g., top-p, min-p)
that inadvertently include more noise tokens at higher temperatures,
top-nsigma maintains a stable sampling space regardless of temperature
scaling. We also provide a theoretical analysis of top-nsigma to better
understand its behavior. The extensive experimental results across four
reasoning-focused datasets demonstrate that our method not only outperforms
existing sampling approaches but also surpasses greedy decoding, while
maintaining consistent performance even at high temperatures.Summary
AI-Generated Summary