Het schalen van Granite-codemodellen naar een context van 128K
Scaling Granite Code Models to 128K Context
July 18, 2024
Auteurs: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI
Samenvatting
Dit artikel introduceert long-context Granite code-modellen die effectieve contextvensters ondersteunen van maximaal 128K tokens. Onze oplossing voor het schalen van de contextlengte van Granite 3B/8B code-modellen van 2K/4K naar 128K bestaat uit een lichtgewicht voortgezette pretraining door geleidelijk de RoPE-basisfrequentie te verhogen met repository-niveau bestandspakketten en lengte-upsampled long-context data. Daarnaast geven we ook instructie-getunede modellen vrij met long-context ondersteuning, die zijn afgeleid door verdere finetuning van de long-context basismodellen op een mix van permissief gelicenseerde korte en lange context instructie-responsparen. In vergelijking met de originele short-context Granite code-modellen behalen onze long-context modellen aanzienlijke verbeteringen op long-context taken zonder enige merkbare prestatievermindering op reguliere code-completion benchmarks (bijv. HumanEval). We geven al onze long-context Granite code-modellen vrij onder een Apache 2.0-licentie voor zowel onderzoek als commercieel gebruik.
English
This paper introduces long-context Granite code models that support effective
context windows of up to 128K tokens. Our solution for scaling context length
of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight
continual pretraining by gradually increasing its RoPE base frequency with
repository-level file packing and length-upsampled long-context data.
Additionally, we also release instruction-tuned models with long-context
support which are derived by further finetuning the long context base models on
a mix of permissively licensed short and long-context instruction-response
pairs. While comparing to the original short-context Granite code models, our
long-context models achieve significant improvements on long-context tasks
without any noticeable performance degradation on regular code completion
benchmarks (e.g., HumanEval). We release all our long-context Granite code
models under an Apache 2.0 license for both research and commercial use.