ChatPaper.aiChatPaper

Top-nσ: No Todos los Logits que Necesitas

Top-nσ: Not All Logits Are You Need

November 12, 2024
Autores: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) suelen emplear decodificación codiciosa o muestreo de baja temperatura para tareas de razonamiento, reflejando un supuesto compromiso entre diversidad y precisión. Desafiamos esta convención al introducir top-nsigma, un novedoso método de muestreo que opera directamente en los logitos previos a la función softmax mediante el uso de un umbral estadístico. Nuestra clave de comprensión es que los logitos naturalmente se separan en una región ruidosa distribuida de forma gaussiana y una región informativa distintiva, lo que permite un filtrado eficiente de tokens sin manipulaciones complejas de probabilidad. A diferencia de métodos existentes (por ejemplo, top-p, min-p) que incluyen inadvertidamente más tokens de ruido a temperaturas más altas, top-nsigma mantiene un espacio de muestreo estable independientemente de la escala de temperatura. También proporcionamos un análisis teórico de top-nsigma para comprender mejor su comportamiento. Los extensos resultados experimentales en cuatro conjuntos de datos centrados en el razonamiento demuestran que nuestro método no solo supera a enfoques de muestreo existentes, sino que también sobrepasa la decodificación codiciosa, manteniendo un rendimiento consistente incluso a altas temperaturas.
English
Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Summary

AI-Generated Summary

PDF225November 19, 2024