Трансформер с байтовыми латентными представлениями: фрагменты масштабируются лучше, чем токены.Byte Latent Transformer: Patches Scale Better Than Tokens
Мы представляем Byte Latent Transformer (BLT) - новую архитектуру байтового языковой модели (LLM), которая впервые достигает производительности на уровне моделей на основе токенизации с существенными улучшениями в эффективности вывода и устойчивости. BLT кодирует байты в динамически изменяемые патчи, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных ресурсов и емкости модели там, где увеличение сложности данных требуется. Мы представляем первое исследование масштабирования моделей на уровне байтов с контролем FLOP до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Как обучение, так и эффективность вывода улучшаются благодаря динамическому выбору длинных патчей, когда данные предсказуемы, а также качественным улучшениям в рассуждениях и обобщении на длинные хвосты. В целом, при фиксированных затратах на вывод, BLT показывает значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патча, так и модели.