Escalando modelos de código de granito a 128K de contexto.
Scaling Granite Code Models to 128K Context
July 18, 2024
Autores: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI
Resumen
Este artículo presenta modelos de código Granite de largo contexto que admiten ventanas de contexto efectivas de hasta 128K tokens. Nuestra solución para ampliar la longitud del contexto de los modelos de código Granite 3B/8B de 2K/4K a 128K consiste en un preentrenamiento continuo de bajo peso al aumentar gradualmente su frecuencia base de RoPE con empaquetado de archivos a nivel de repositorio y datos de largo contexto aumentados en longitud. Además, también lanzamos modelos ajustados a instrucciones con soporte de largo contexto que se derivan al ajustar aún más los modelos base de largo contexto en una mezcla de pares de instrucciones-respuesta de contexto corto y largo con licencias permisivas. Al comparar con los modelos de código Granite de contexto corto originales, nuestros modelos de largo contexto logran mejoras significativas en tareas de largo contexto sin degradación del rendimiento notable en bancos de pruebas regulares de finalización de código (por ejemplo, HumanEval). Publicamos todos nuestros modelos de código Granite de largo contexto bajo una licencia Apache 2.0 para uso tanto en investigación como comercial.
English
This paper introduces long-context Granite code models that support effective
context windows of up to 128K tokens. Our solution for scaling context length
of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight
continual pretraining by gradually increasing its RoPE base frequency with
repository-level file packing and length-upsampled long-context data.
Additionally, we also release instruction-tuned models with long-context
support which are derived by further finetuning the long context base models on
a mix of permissively licensed short and long-context instruction-response
pairs. While comparing to the original short-context Granite code models, our
long-context models achieve significant improvements on long-context tasks
without any noticeable performance degradation on regular code completion
benchmarks (e.g., HumanEval). We release all our long-context Granite code
models under an Apache 2.0 license for both research and commercial use.Summary
AI-Generated Summary