OpenCoder: Открытая поваренная книга для высококачественных языковых моделей кодаOpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
Крупные языковые модели (LLM) для работы с кодом стали незаменимыми в различных областях, включая генерацию кода, задачи логического рассуждения и системы агентов. Хотя открытые LLM для кода всё чаще приближаются по производительности к проприетарным моделям, высококачественные LLM для кода, подходящие для строгих научных исследований, особенно те, которые имеют воспроизводимые конвейеры обработки данных и прозрачные протоколы обучения, остаются ограниченными. Этот дефицит обусловлен различными вызовами, включая ограниченность ресурсов, этические соображения и конкурентные преимущества сохранения передовых моделей. Чтобы устранить этот пробел, мы представляем OpenCoder — высококлассную LLM для кода, которая не только достигает производительности, сопоставимой с ведущими моделями, но и служит «открытой кулинарной книгой» для научного сообщества. В отличие от большинства предыдущих усилий, мы публикуем не только веса модели и код для вывода, но и воспроизводимые данные для обучения, полный конвейер обработки данных, строгие результаты экспериментального абляционного анализа и детальные протоколы обучения для открытых научных исследований. Благодаря этой всесторонней публикации мы определяем ключевые компоненты для создания высококлассной LLM для кода: (1) эвристические правила, оптимизированные для очистки данных, и методы дедупликации данных, (2) извлечение текстового корпуса, связанного с кодом, и (3) высококачественные синтетические данные на этапах как отжига, так и контролируемой тонкой настройки. Предлагая такой уровень открытости, мы стремимся расширить доступ ко всем аспектам высококлассной LLM для кода, где OpenCoder служит как мощной моделью, так и открытой основой для ускорения исследований и обеспечения воспроизводимых достижений в области искусственного интеллекта для работы с кодом.