Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung.
Predicting the Order of Upcoming Tokens Improves Language Modeling
August 26, 2025
papers.authors: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI
papers.abstract
Multi-Token Prediction (MTP) wurde als zusätzliches Ziel vorgeschlagen, um die Next-Token Prediction (NTP) beim Training von Sprachmodellen zu verbessern, zeigt jedoch inkonsistente Verbesserungen und schneidet bei Standard-NLP-Benchmarks unterdurchschnittlich ab. Wir argumentieren, dass die exakte Vorhersage zukünftiger Token durch MTP als zusätzlicher Verlust zu schwierig ist. Stattdessen schlagen wir Token Order Prediction (TOP) vor, bei dem Modelle trainiert werden, bevorstehende Token nach ihrer Nähe zu ordnen, wobei ein Learning-to-Rank-Verlust verwendet wird. TOP erfordert im Vergleich zu MTP, das mehrere Transformer-Schichten benötigt, lediglich eine zusätzliche Unembedding-Schicht. Wir trainieren Modelle mit 340M, 1,8B und 7B Parametern mit den Zielen NTP, MTP und TOP vor. Die Ergebnisse auf acht Standard-NLP-Benchmarks zeigen, dass TOP insgesamt sowohl NTP als auch MTP übertrifft, selbst bei größeren Modellen. Unser Code ist verfügbar unter https://github.com/zaydzuhri/token-order-prediction.
English
Multi-Token Prediction (MTP) has been proposed as an auxiliary objective to
improve next-token prediction (NTP) in language model training but shows
inconsistent improvements, underperforming in standard NLP benchmarks. We argue
that MTP's exact future token prediction is too difficult as an auxiliary loss.
Instead, we propose Token Order Prediction (TOP), which trains models to order
upcoming tokens by their proximity using a learning-to-rank loss. TOP requires
only a single additional unembedding layer compared to MTP's multiple
transformer layers. We pretrain models of 340M, 1.8B, and 7B parameters using
NTP, MTP, and TOP objectives. Results on eight standard NLP benchmarks show
that TOP overall outperforms both NTP and MTP even at scale. Our code is
available at https://github.com/zaydzuhri/token-order-prediction