Top-nσ: Nem Todos os Logits que Você Precisa

Resumo

Os modelos de linguagem grandes (LLMs) normalmente utilizam decodificação gulosa ou amostragem de baixa temperatura para tarefas de raciocínio, refletindo um suposto equilíbrio entre diversidade e precisão. Desafiamos essa convenção ao introduzir o top-nsigma, um novo método de amostragem que opera diretamente nos logitos pré-softmax, aproveitando um limiar estatístico. Nossa principal percepção é que os logitos naturalmente se separam em uma região ruidosa distribuída de forma gaussiana e uma região informativa distinta, permitindo a filtragem eficiente de tokens sem manipulações complexas de probabilidade. Ao contrário de métodos existentes (por exemplo, top-p, min-p) que incluem inadvertidamente mais tokens de ruído em temperaturas mais altas, o top-nsigma mantém um espaço de amostragem estável independentemente da escala de temperatura. Também fornecemos uma análise teórica do top-nsigma para melhor compreender seu comportamento. Os extensos resultados experimentais em quatro conjuntos de dados focados em raciocínio demonstram que nosso método não apenas supera abordagens de amostragem existentes, mas também ultrapassa a decodificação gulosa, mantendo um desempenho consistente mesmo em altas temperaturas.

English

Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Top-nσ: Nem Todos os Logits que Você Precisa

Top-nσ: Not All Logits Are You Need

Resumo

Support