Rho-1: Не все токены то, что вам нужно.
Rho-1: Not All Tokens Are What You Need
April 11, 2024
Авторы: Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
cs.AI
Аннотация
Предыдущие методы предварительного обучения языковых моделей равномерно применяли потерю прогнозирования следующего токена ко всем обучающим токенам. Опровергая этот норматив, мы предполагаем, что "Не все токены в корпусе одинаково важны для обучения языковой модели". Наш первоначальный анализ углубляется в динамику обучения на уровне токенов языковой модели, раскрывая различные шаблоны потерь для различных токенов. Используя эти идеи, мы представляем новую языковую модель под названием Rho-1. В отличие от традиционных ЯМ, которые учатся предсказывать каждый следующий токен в корпусе, Rho-1 использует Селективное Моделирование Языка (SLM), которое выборочно обучает полезные токены, соответствующие желаемому распределению. Этот подход включает оценку токенов предварительного обучения с использованием опорной модели, а затем обучение языковой модели с упором на токены с более высокой избыточной потерей. После продолжительного предварительного обучения на корпусе 15B OpenWebMath, Rho-1 дает абсолютное улучшение в точности при небольшом количестве примеров до 30% в 9 математических задачах. После настройки, Rho-1-1B и 7B достигли передовых результатов 40.6% и 51.8% на наборе данных MATH соответственно - сравнимых с DeepSeekMath с использованием всего 3% токенов предварительного обучения. Более того, при предварительном обучении на 80B общих токенах, Rho-1 достигает среднего улучшения в 6.8% по 15 разнообразным задачам, увеличивая как эффективность, так и производительность предварительного обучения языковой модели.
English
Previous language model pre-training methods have uniformly applied a
next-token prediction loss to all training tokens. Challenging this norm, we
posit that "Not all tokens in a corpus are equally important for language model
training". Our initial analysis delves into token-level training dynamics of
language model, revealing distinct loss patterns for different tokens.
Leveraging these insights, we introduce a new language model called Rho-1.
Unlike traditional LMs that learn to predict every next token in a corpus,
Rho-1 employs Selective Language Modeling (SLM), which selectively trains on
useful tokens that aligned with the desired distribution. This approach
involves scoring pretraining tokens using a reference model, and then training
the language model with a focused loss on tokens with higher excess loss. When
continual pretraining on 15B OpenWebMath corpus, Rho-1 yields an absolute
improvement in few-shot accuracy of up to 30% in 9 math tasks. After
fine-tuning, Rho-1-1B and 7B achieved state-of-the-art results of 40.6% and
51.8% on MATH dataset, respectively - matching DeepSeekMath with only 3% of the
pretraining tokens. Furthermore, when pretraining on 80B general tokens, Rho-1
achieves 6.8% average enhancement across 15 diverse tasks, increasing both
efficiency and performance of the language model pre-training.Summary
AI-Generated Summary