ChatPaper.aiChatPaper

Predecir el Orden de los Próximos Tokens Mejora el Modelado del Lenguaje

Predicting the Order of Upcoming Tokens Improves Language Modeling

August 26, 2025
Autores: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI

Resumen

La Predicción Multi-Token (MTP, por sus siglas en inglés) se ha propuesto como un objetivo auxiliar para mejorar la predicción del siguiente token (NTP) en el entrenamiento de modelos de lenguaje, pero muestra mejoras inconsistentes y un rendimiento inferior en los benchmarks estándar de Procesamiento del Lenguaje Natural (PLN). Argumentamos que la predicción exacta de tokens futuros en MTP es demasiado difícil como una pérdida auxiliar. En su lugar, proponemos la Predicción del Orden de Tokens (TOP), que entrena a los modelos para ordenar los tokens próximos según su proximidad utilizando una pérdida de aprendizaje para clasificación. TOP requiere solo una capa adicional de desembebido en comparación con las múltiples capas de transformadores de MTP. Preentrenamos modelos de 340M, 1.8B y 7B de parámetros utilizando los objetivos NTP, MTP y TOP. Los resultados en ocho benchmarks estándar de PLN muestran que TOP supera en general tanto a NTP como a MTP, incluso a gran escala. Nuestro código está disponible en https://github.com/zaydzuhri/token-order-prediction.
English
Multi-Token Prediction (MTP) has been proposed as an auxiliary objective to improve next-token prediction (NTP) in language model training but shows inconsistent improvements, underperforming in standard NLP benchmarks. We argue that MTP's exact future token prediction is too difficult as an auxiliary loss. Instead, we propose Token Order Prediction (TOP), which trains models to order upcoming tokens by their proximity using a learning-to-rank loss. TOP requires only a single additional unembedding layer compared to MTP's multiple transformer layers. We pretrain models of 340M, 1.8B, and 7B parameters using NTP, MTP, and TOP objectives. Results on eight standard NLP benchmarks show that TOP overall outperforms both NTP and MTP even at scale. Our code is available at https://github.com/zaydzuhri/token-order-prediction
PDF182August 28, 2025