Skalierung von Granit-Code-Modellen auf 128K Kontext
Scaling Granite Code Models to 128K Context
July 18, 2024
Autoren: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
cs.AI
Zusammenfassung
Dieses Paper stellt die Long-Context Granite-Code-Modelle vor, die effektive Kontextfenster von bis zu 128K Tokens unterstützen. Unsere Lösung zur Skalierung der Kontextlänge der Granite 3B/8B Code-Modelle von 2K/4K auf 128K besteht aus einem leichtgewichtigen kontinuierlichen Pretraining, bei dem allmählich die RoPE-Basisfrequenz erhöht wird, mit Dateipackung auf Repository-Ebene und längerem Kontextdaten-Upsampling. Darüber hinaus veröffentlichen wir auch instruktionsangepasste Modelle mit Langkontext-Unterstützung, die durch weiteres Feintuning der Langkontext-Basismodelle anhand einer Mischung aus großzügig lizenzierten Kurz- und Langkontext-Instruktions-Antwort-Paaren abgeleitet sind. Im Vergleich zu den originalen Kurzkontext-Granite-Code-Modellen erzielen unsere Langkontext-Modelle signifikante Verbesserungen bei Langkontext-Aufgaben, ohne dass eine spürbare Leistungsminderung bei regulären Code-Vervollständigungs-Benchmarks (z. B. HumanEval) festgestellt wird. Wir veröffentlichen alle unsere Langkontext-Granite-Code-Modelle unter einer Apache 2.0 Lizenz für sowohl Forschungs- als auch kommerzielle Nutzung.
English
This paper introduces long-context Granite code models that support effective
context windows of up to 128K tokens. Our solution for scaling context length
of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight
continual pretraining by gradually increasing its RoPE base frequency with
repository-level file packing and length-upsampled long-context data.
Additionally, we also release instruction-tuned models with long-context
support which are derived by further finetuning the long context base models on
a mix of permissively licensed short and long-context instruction-response
pairs. While comparing to the original short-context Granite code models, our
long-context models achieve significant improvements on long-context tasks
without any noticeable performance degradation on regular code completion
benchmarks (e.g., HumanEval). We release all our long-context Granite code
models under an Apache 2.0 license for both research and commercial use.Summary
AI-Generated Summary