StarCoder 2 и The Stack v2: Следующее поколениеStarCoder 2 and The Stack v2: The Next Generation
Проект BigCode, открыто-научное сотрудничество, сосредоточенное на ответственной разработке больших языковых моделей для кода (Code LLMs), представляет StarCoder2. В партнерстве с Software Heritage (SWH) мы строим The Stack v2 на основе цифрового общего доступа к архиву исходного кода. Параллельно с репозиториями SWH, охватывающими 619 языков программирования, мы тщательно выбираем другие источники данных высокого качества, такие как запросы на объединение в GitHub, ноутбуки Kaggle и документацию по коду. Это приводит к обучающему набору данных, в четыре раза превосходящем первый набор данных StarCoder. Мы обучаем модели StarCoder2 с 3 миллиардами, 7 миллиардами и 15 миллиардами параметров на 3,3 до 4,3 триллиона токенов и тщательно оцениваем их на обширном наборе тестов для Code LLM. Мы обнаружили, что наша небольшая модель, StarCoder2-3B, превосходит другие Code LLM схожего размера на большинстве тестов, а также превосходит StarCoderBase-15B. Наша крупная модель, StarCoder2-15B, значительно превосходит другие модели сопоставимого размера. Кроме того, она соответствует или превосходит CodeLlama-34B, модель более чем вдвое большего размера. Хотя DeepSeekCoder-33B является наилучшей моделью для завершения кода на языках с высокими ресурсами, мы обнаружили, что StarCoder2-15B превосходит ее на математических и кодовых тестах, а также на нескольких языках с низкими ресурсами. Мы предоставляем веса модели на условиях лицензии OpenRAIL и обеспечиваем полную прозрачность относительно данных обучения, публикуя постоянные идентификаторы Software Heritage (SWHIDs) исходных данных по коду.