ChatPaper.aiChatPaper

Prevedere l'ordine dei token futuri migliora la modellazione del linguaggio

Predicting the Order of Upcoming Tokens Improves Language Modeling

August 26, 2025
Autori: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI

Abstract

La previsione multi-token (Multi-Token Prediction, MTP) è stata proposta come obiettivo ausiliario per migliorare la previsione del token successivo (Next-Token Prediction, NTP) nell'addestramento di modelli linguistici, ma mostra miglioramenti inconsistenti, ottenendo prestazioni inferiori nei benchmark standard di NLP. Sosteniamo che la previsione esatta dei token futuri richiesta da MTP sia troppo difficile come funzione di perdita ausiliaria. Proponiamo invece la previsione dell'ordine dei token (Token Order Prediction, TOP), che addestra i modelli a ordinare i token futuri in base alla loro prossimità utilizzando una funzione di perdita di apprendimento al ranking. TOP richiede solo un singolo strato di unembedding aggiuntivo rispetto ai multipli strati transformer di MTP. Abbiamo preaddestrato modelli con 340M, 1.8B e 7B di parametri utilizzando gli obiettivi NTP, MTP e TOP. I risultati su otto benchmark standard di NLP mostrano che TOP supera complessivamente sia NTP che MTP, anche su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/zaydzuhri/token-order-prediction.
English
Multi-Token Prediction (MTP) has been proposed as an auxiliary objective to improve next-token prediction (NTP) in language model training but shows inconsistent improvements, underperforming in standard NLP benchmarks. We argue that MTP's exact future token prediction is too difficult as an auxiliary loss. Instead, we propose Token Order Prediction (TOP), which trains models to order upcoming tokens by their proximity using a learning-to-rank loss. TOP requires only a single additional unembedding layer compared to MTP's multiple transformer layers. We pretrain models of 340M, 1.8B, and 7B parameters using NTP, MTP, and TOP objectives. Results on eight standard NLP benchmarks show that TOP overall outperforms both NTP and MTP even at scale. Our code is available at https://github.com/zaydzuhri/token-order-prediction
PDF222August 28, 2025