Mise à l'échelle des modèles de code Granite pour un contexte de 128K
Scaling Granite Code Models to 128K Context
July 18, 2024
Auteurs: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI
Résumé
Cet article présente des modèles de code Granite à contexte long, capables de gérer des fenêtres contextuelles efficaces allant jusqu'à 128 000 tokens. Notre solution pour étendre la longueur de contexte des modèles de code Granite 3B/8B de 2K/4K à 128K repose sur un pré-entraînement continu léger, en augmentant progressivement la fréquence de base de leur RoPE, combiné à un regroupement de fichiers au niveau du dépôt et à des données de contexte long suréchantillonnées en longueur. De plus, nous publions également des modèles ajustés par instruction avec support de contexte long, obtenus en affinant davantage les modèles de base à contexte long sur un mélange de paires instruction-réponse à contexte court et long sous licence permissive. Par rapport aux modèles de code Granite à contexte court d'origine, nos modèles à contexte long montrent des améliorations significatives sur les tâches à contexte long, sans dégradation notable des performances sur les benchmarks classiques de complétion de code (par exemple, HumanEval). Nous mettons à disposition tous nos modèles de code Granite à contexte long sous licence Apache 2.0, pour un usage à la fois de recherche et commercial.
English
This paper introduces long-context Granite code models that support effective
context windows of up to 128K tokens. Our solution for scaling context length
of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight
continual pretraining by gradually increasing its RoPE base frequency with
repository-level file packing and length-upsampled long-context data.
Additionally, we also release instruction-tuned models with long-context
support which are derived by further finetuning the long context base models on
a mix of permissively licensed short and long-context instruction-response
pairs. While comparing to the original short-context Granite code models, our
long-context models achieve significant improvements on long-context tasks
without any noticeable performance degradation on regular code completion
benchmarks (e.g., HumanEval). We release all our long-context Granite code
models under an Apache 2.0 license for both research and commercial use.Summary
AI-Generated Summary