ChatPaper.aiChatPaper

Rho-1: Nicht alle Tokens sind das, was du brauchst.

Rho-1: Not All Tokens Are What You Need

April 11, 2024
papers.authors: Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
cs.AI

papers.abstract

Bisher haben vorherige Methoden zur Vorabtrainierung von Sprachmodellen einheitlich einen Verlust für die Vorhersage des nächsten Tokens auf alle Trainings-Token angewendet. In Frage stellend, dass "Nicht alle Tokens in einem Korpus gleichermaßen wichtig für das Training von Sprachmodellen sind", postulieren wir. Unsere anfängliche Analyse taucht in die Trainingsdynamik auf Token-Ebene des Sprachmodells ein und zeigt unterschiedliche Verlustmuster für verschiedene Tokens auf. Unter Nutzung dieser Erkenntnisse führen wir ein neues Sprachmodell namens Rho-1 ein. Im Gegensatz zu traditionellen Sprachmodellen, die lernen, jedes nächste Token in einem Korpus vorherzusagen, verwendet Rho-1 Selektives Sprachmodellieren (SLM), das selektiv auf nützliche Tokens trainiert, die mit der gewünschten Verteilung übereinstimmen. Dieser Ansatz beinhaltet das Bewerten von Vorabtrainierungs-Tokens unter Verwendung eines Referenzmodells und anschließend das Training des Sprachmodells mit einem fokussierten Verlust auf Tokens mit höherem Überschussverlust. Bei kontinuierlicher Vorabtrainierung auf dem 15B OpenWebMath-Korpus erzielt Rho-1 eine absolute Verbesserung der Few-Shot-Genauigkeit von bis zu 30% in 9 mathematischen Aufgaben. Nach Feinabstimmung erreichten Rho-1-1B und 7B Spitzenwerte von 40,6% bzw. 51,8% im MATH-Datensatz, was DeepSeekMath mit nur 3% der Vorabtrainierungs-Tokens entspricht. Darüber hinaus erzielt Rho-1 bei der Vorabtrainierung auf 80B allgemeinen Tokens eine durchschnittliche Verbesserung von 6,8% über 15 verschiedene Aufgaben, was sowohl die Effizienz als auch die Leistung der Vorabtrainierung von Sprachmodellen steigert.
English
Previous language model pre-training methods have uniformly applied a next-token prediction loss to all training tokens. Challenging this norm, we posit that "Not all tokens in a corpus are equally important for language model training". Our initial analysis delves into token-level training dynamics of language model, revealing distinct loss patterns for different tokens. Leveraging these insights, we introduce a new language model called Rho-1. Unlike traditional LMs that learn to predict every next token in a corpus, Rho-1 employs Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution. This approach involves scoring pretraining tokens using a reference model, and then training the language model with a focused loss on tokens with higher excess loss. When continual pretraining on 15B OpenWebMath corpus, Rho-1 yields an absolute improvement in few-shot accuracy of up to 30% in 9 math tasks. After fine-tuning, Rho-1-1B and 7B achieved state-of-the-art results of 40.6% and 51.8% on MATH dataset, respectively - matching DeepSeekMath with only 3% of the pretraining tokens. Furthermore, when pretraining on 80B general tokens, Rho-1 achieves 6.8% average enhancement across 15 diverse tasks, increasing both efficiency and performance of the language model pre-training.
PDF9416December 15, 2024