Het schalen van Granite-codemodellen naar een context van 128K

Samenvatting

Dit artikel introduceert long-context Granite code-modellen die effectieve contextvensters ondersteunen van maximaal 128K tokens. Onze oplossing voor het schalen van de contextlengte van Granite 3B/8B code-modellen van 2K/4K naar 128K bestaat uit een lichtgewicht voortgezette pretraining door geleidelijk de RoPE-basisfrequentie te verhogen met repository-niveau bestandspakketten en lengte-upsampled long-context data. Daarnaast geven we ook instructie-getunede modellen vrij met long-context ondersteuning, die zijn afgeleid door verdere finetuning van de long-context basismodellen op een mix van permissief gelicenseerde korte en lange context instructie-responsparen. In vergelijking met de originele short-context Granite code-modellen behalen onze long-context modellen aanzienlijke verbeteringen op long-context taken zonder enige merkbare prestatievermindering op reguliere code-completion benchmarks (bijv. HumanEval). We geven al onze long-context Granite code-modellen vrij onder een Apache 2.0-licentie voor zowel onderzoek als commercieel gebruik.

English

This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.

Het schalen van Granite-codemodellen naar een context van 128K

Scaling Granite Code Models to 128K Context

Samenvatting

Support