ChatPaper.aiChatPaper

Масштабирование моделей кода Granite до 128K контекста

Scaling Granite Code Models to 128K Context

July 18, 2024
Авторы: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI

Аннотация

Эта статья представляет длинноконтекстные модели кода Granite, поддерживающие эффективные контекстные окна до 128K токенов. Наше решение для увеличения длины контекста моделей кода Granite 3B/8B с 2K/4K до 128K состоит в легком постоянном предварительном обучении путем постепенного увеличения базовой частоты RoPE с упаковкой файлов на уровне репозитория и увеличением длины данных с длинным контекстом. Кроме того, мы также выпускаем модели, настроенные под инструкции, с поддержкой длинного контекста, которые получены путем дальнейшего донастройки базовых моделей с длинным контекстом на смешанном наборе лицензированных разрешений коротких и длинноконтекстных пар инструкция-ответ. При сравнении с оригинальными моделями кода Granite с коротким контекстом наши модели с длинным контекстом достигают значительных улучшений в задачах с длинным контекстом без заметного ухудшения производительности на стандартных бенчмарках завершения кода (например, HumanEval). Мы выпускаем все наши длинноконтекстные модели кода Granite под лицензией Apache 2.0 для использования в исследованиях и коммерческих целях.
English
This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.

Summary

AI-Generated Summary

PDF203November 28, 2024