Rho-1: Не все токены то, что вам нужно.Rho-1: Not All Tokens Are What You Need
Предыдущие методы предварительного обучения языковых моделей равномерно применяли потерю прогнозирования следующего токена ко всем обучающим токенам. Опровергая этот норматив, мы предполагаем, что "Не все токены в корпусе одинаково важны для обучения языковой модели". Наш первоначальный анализ углубляется в динамику обучения на уровне токенов языковой модели, раскрывая различные шаблоны потерь для различных токенов. Используя эти идеи, мы представляем новую языковую модель под названием Rho-1. В отличие от традиционных ЯМ, которые учатся предсказывать каждый следующий токен в корпусе, Rho-1 использует Селективное Моделирование Языка (SLM), которое выборочно обучает полезные токены, соответствующие желаемому распределению. Этот подход включает оценку токенов предварительного обучения с использованием опорной модели, а затем обучение языковой модели с упором на токены с более высокой избыточной потерей. После продолжительного предварительного обучения на корпусе 15B OpenWebMath, Rho-1 дает абсолютное улучшение в точности при небольшом количестве примеров до 30% в 9 математических задачах. После настройки, Rho-1-1B и 7B достигли передовых результатов 40.6% и 51.8% на наборе данных MATH соответственно - сравнимых с DeepSeekMath с использованием всего 3% токенов предварительного обучения. Более того, при предварительном обучении на 80B общих токенах, Rho-1 достигает среднего улучшения в 6.8% по 15 разнообразным задачам, увеличивая как эффективность, так и производительность предварительного обучения языковой модели.