ChatPaper.aiChatPaper

Skalierung von Granit-Code-Modellen auf 128K Kontext

Scaling Granite Code Models to 128K Context

July 18, 2024
Autoren: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI

Zusammenfassung

Dieses Paper stellt die Long-Context Granite-Code-Modelle vor, die effektive Kontextfenster von bis zu 128K Tokens unterstützen. Unsere Lösung zur Skalierung der Kontextlänge der Granite 3B/8B Code-Modelle von 2K/4K auf 128K besteht aus einem leichtgewichtigen kontinuierlichen Pretraining, bei dem allmählich die RoPE-Basisfrequenz erhöht wird, mit Dateipackung auf Repository-Ebene und längerem Kontextdaten-Upsampling. Darüber hinaus veröffentlichen wir auch instruktionsangepasste Modelle mit Langkontext-Unterstützung, die durch weiteres Feintuning der Langkontext-Basismodelle anhand einer Mischung aus großzügig lizenzierten Kurz- und Langkontext-Instruktions-Antwort-Paaren abgeleitet sind. Im Vergleich zu den originalen Kurzkontext-Granite-Code-Modellen erzielen unsere Langkontext-Modelle signifikante Verbesserungen bei Langkontext-Aufgaben, ohne dass eine spürbare Leistungsminderung bei regulären Code-Vervollständigungs-Benchmarks (z. B. HumanEval) festgestellt wird. Wir veröffentlichen alle unsere Langkontext-Granite-Code-Modelle unter einer Apache 2.0 Lizenz für sowohl Forschungs- als auch kommerzielle Nutzung.
English
This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.

Summary

AI-Generated Summary

PDF203November 28, 2024