ChatPaper.aiChatPaper

Het schalen van Granite-codemodellen naar een context van 128K

Scaling Granite Code Models to 128K Context

July 18, 2024
Auteurs: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI

Samenvatting

Dit artikel introduceert long-context Granite code-modellen die effectieve contextvensters ondersteunen van maximaal 128K tokens. Onze oplossing voor het schalen van de contextlengte van Granite 3B/8B code-modellen van 2K/4K naar 128K bestaat uit een lichtgewicht voortgezette pretraining door geleidelijk de RoPE-basisfrequentie te verhogen met repository-niveau bestandspakketten en lengte-upsampled long-context data. Daarnaast geven we ook instructie-getunede modellen vrij met long-context ondersteuning, die zijn afgeleid door verdere finetuning van de long-context basismodellen op een mix van permissief gelicenseerde korte en lange context instructie-responsparen. In vergelijking met de originele short-context Granite code-modellen behalen onze long-context modellen aanzienlijke verbeteringen op long-context taken zonder enige merkbare prestatievermindering op reguliere code-completion benchmarks (bijv. HumanEval). We geven al onze long-context Granite code-modellen vrij onder een Apache 2.0-licentie voor zowel onderzoek als commercieel gebruik.
English
This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.
PDF203February 8, 2026