ChatPaper.aiChatPaper

Dimensionando modelos de código Granite para 128K de contexto

Scaling Granite Code Models to 128K Context

July 18, 2024
Autores: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI

Resumo

Este artigo apresenta modelos de código Granite de longo contexto que suportam efetivamente janelas de contexto de até 128 mil tokens. Nossa solução para aumentar o comprimento do contexto dos modelos de código Granite 3B/8B de 2K/4K para 128K consiste em um pré-treinamento contínuo leve, aumentando gradualmente a frequência de sua base RoPE com empacotamento de arquivos em nível de repositório e dados de longo contexto com amostragem de comprimento. Além disso, também disponibilizamos modelos ajustados para instruções com suporte a longo contexto, derivados ao refinar ainda mais os modelos de base de longo contexto em uma mistura de pares de instrução-resposta de contexto curto e longo licenciados de forma permissiva. Ao comparar com os modelos de código Granite de curto contexto originais, nossos modelos de longo contexto alcançam melhorias significativas em tarefas de longo contexto sem degradação perceptível de desempenho em benchmarks regulares de conclusão de código (por exemplo, HumanEval). Disponibilizamos todos os nossos modelos de código Granite de longo contexto sob a licença Apache 2.0 para uso tanto em pesquisa quanto comercial.
English
This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.
PDF203November 28, 2024