ChatPaper.aiChatPaper

그래나이트 코드 모델을 128K 컨텍스트로 확장

Scaling Granite Code Models to 128K Context

July 18, 2024
저자: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI

초록

본 논문은 최대 128K 토큰의 효과적인 컨텍스트 윈도우를 지원하는 장문 컨텍스트 Granite 코드 모델을 소개합니다. Granite 3B/8B 코드 모델의 컨텍스트 길이를 2K/4K에서 128K로 확장하기 위한 우리의 솔루션은, 저장소 수준의 파일 패킹과 길이 업샘플링된 장문 컨텍스트 데이터를 사용하여 RoPE 베이스 주파수를 점진적으로 증가시키는 경량의 지속적 사전 학습으로 구성됩니다. 또한, 우리는 장문 컨텍스트를 지원하는 인스트럭션 튜닝 모델도 공개하며, 이는 장문 컨텍스트 기본 모델을 허가된 라이선스의 짧은 및 장문 컨텍스트 인스트럭션-응답 쌍으로 추가 미세 조정하여 파생되었습니다. 기존의 짧은 컨텍스트 Granite 코드 모델과 비교했을 때, 우리의 장문 컨텍스트 모델은 일반 코드 완성 벤치마크(예: HumanEval)에서의 성능 저하 없이 장문 컨텍스트 작업에서 상당한 개선을 달성했습니다. 우리는 모든 장문 컨텍스트 Granite 코드 모델을 연구 및 상업적 사용을 위해 Apache 2.0 라이선스 하에 공개합니다.
English
This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.

Summary

AI-Generated Summary

PDF203November 28, 2024