TÜLU 3: Расширение границ в посттренировке открытой языковой моделиTÜLU 3: Pushing Frontiers in Open Language Model Post-Training
Пост-тренировка языковой модели применяется для улучшения поведения и разблокировки новых навыков в широком диапазоне недавних языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Основные данные обучения и рецепты для пост-тренировки одновременно являются наиболее важными элементами пазла и частью с наименьшей прозрачностью. Для устранения этого разрыва мы представляем T\"ULU 3, семейство современных пост-тренированных моделей, вместе с данными, кодом и рецептами обучения, служащими в качестве всеобъемлющего руководства по современным техникам пост-тренировки. T\"ULU 3, основанный на базовых моделях Llama 3.1, достигает результатов, превосходящих версии Instruct Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают надзорное дообучение (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем Обучением с подтверждаемыми наградами на основе обучения с подкреплением (RLVR). С помощью T\"ULU 3 мы представляем схему оценки многозадачной пост-тренировки с разработкой и оценкой на невидимых данных, стандартные реализации бенчмарков и значительную деконтаминацию существующих открытых наборов данных на этих бенчмарках. Мы завершаем анализом и обсуждением методов обучения, которые не надежно улучшили производительность. Помимо весов модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт, включая наборы данных для разнообразных основных навыков, надежный инструментарий для курирования и оценки данных, код и инфраструктуру обучения, а также, что самое важное, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.