Инженерия данных для масштабирования языковых моделей до контекста в 128 тысяч токенов

Аннотация

Мы исследуем подход к непрерывному предобучению для масштабирования длины контекста языковых моделей до 128K, уделяя особое внимание инженерии данных. Мы предполагаем, что моделирование длинного контекста, в частности способность использовать информацию из произвольных мест ввода, — это навык, который в основном уже приобретается в ходе крупномасштабного предобучения, и что этот навык можно легко расширить на контексты, значительно превышающие те, что встречались во время обучения (например, с 4K до 128K), с помощью легковесного непрерывного предобучения на подходящей смеси данных. Мы изучаем количество и качество данных для непрерывного предобучения: (1) по количеству мы показываем, что 500 миллионов — 5 миллиардов токенов достаточно, чтобы модель могла извлекать информацию из любого места в контексте длиной 128K; (2) по качеству наши результаты одинаково подчеркивают важность баланса доменов и апсэмплинга длины. Конкретно, мы обнаруживаем, что наивный апсэмплинг более длинных данных в определенных доменах, таких как книги, что является распространенной практикой в существующих работах, дает неоптимальные результаты, и что сбалансированная смесь доменов важна. Мы демонстрируем, что непрерывное предобучение полной модели на 1–5 миллиардах токенов таких данных является эффективной и доступной стратегией для масштабирования длины контекста языковых моделей до 128K. Наш подход превосходит сильные модели с длинным контекстом с открытым исходным кодом и сокращает разрыв с передовыми моделями, такими как GPT-4 128K.

English

We study the continual pretraining recipe for scaling language models' context lengths to 128K, with a focus on data engineering. We hypothesize that long context modeling, in particular the ability to utilize information at arbitrary input locations, is a capability that is mostly already acquired through large-scale pretraining, and that this capability can be readily extended to contexts substantially longer than seen during training~(e.g., 4K to 128K) through lightweight continual pretraining on appropriate data mixture. We investigate the quantity and quality of the data for continual pretraining: (1) for quantity, we show that 500 million to 5 billion tokens are enough to enable the model to retrieve information anywhere within the 128K context; (2) for quality, our results equally emphasize domain balance and length upsampling. Concretely, we find that naively upsampling longer data on certain domains like books, a common practice of existing work, gives suboptimal performance, and that a balanced domain mixture is important. We demonstrate that continual pretraining of the full model on 1B-5B tokens of such data is an effective and affordable strategy for scaling the context length of language models to 128K. Our recipe outperforms strong open-source long-context models and closes the gap to frontier models like GPT-4 128K.

Инженерия данных для масштабирования языковых моделей до контекста в 128 тысяч токенов

Data Engineering for Scaling Language Models to 128K Context

Аннотация

Support