ChatPaper.aiChatPaper

Het voorspellen van de volgorde van aankomende tokens verbetert taalmodelering.

Predicting the Order of Upcoming Tokens Improves Language Modeling

August 26, 2025
Auteurs: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI

Samenvatting

Multi-Token Prediction (MTP) is voorgesteld als een hulpdoel om next-token prediction (NTP) te verbeteren tijdens het trainen van taalmodel(len), maar laat inconsistente verbeteringen zien en presteert minder goed op standaard NLP-benchmarks. Wij stellen dat MTP's exacte voorspelling van toekomstige tokens te moeilijk is als hulpverliesfunctie. In plaats daarvan stellen we Token Order Prediction (TOP) voor, waarbij modellen worden getraind om aankomende tokens te ordenen op basis van hun nabijheid met behulp van een learning-to-rank verliesfunctie. TOP vereist slechts één extra unembedding-laag in vergelijking met de meerdere transformer-lagen van MTP. We pretrainen modellen van 340M, 1,8B en 7B parameters met behulp van NTP, MTP en TOP-doelstellingen. Resultaten op acht standaard NLP-benchmarks laten zien dat TOP over het algemeen zowel NTP als MTP overtreft, zelfs op grote schaal. Onze code is beschikbaar op https://github.com/zaydzuhri/token-order-prediction.
English
Multi-Token Prediction (MTP) has been proposed as an auxiliary objective to improve next-token prediction (NTP) in language model training but shows inconsistent improvements, underperforming in standard NLP benchmarks. We argue that MTP's exact future token prediction is too difficult as an auxiliary loss. Instead, we propose Token Order Prediction (TOP), which trains models to order upcoming tokens by their proximity using a learning-to-rank loss. TOP requires only a single additional unembedding layer compared to MTP's multiple transformer layers. We pretrain models of 340M, 1.8B, and 7B parameters using NTP, MTP, and TOP objectives. Results on eight standard NLP benchmarks show that TOP overall outperforms both NTP and MTP even at scale. Our code is available at https://github.com/zaydzuhri/token-order-prediction
PDF222August 28, 2025