TÜLU 3: 오픈 언어 모델 사후 훈련에서의 선두를 다투다.TÜLU 3: Pushing Frontiers in Open Language Model Post-Training
언어 모델 사후 훈련은 최근 언어 모델의 넓은 범위에서 행동을 정제하고 새로운 기술을 개방하는 데 적용되지만, 이러한 기술을 적용하는 방법에 대한 공개 레시피는 전용 레시피에 뒤처지고 있습니다. 사후 훈련을 위한 근본적인 훈련 데이터와 레시피는 퍼즐의 가장 중요한 부분이면서 가장 투명성이 적은 부분입니다. 이 간극을 메우기 위해, 우리는 T\"ULU 3을 소개합니다. 이는 최신 사후 훈련 기술에 대한 포괄적인 안내서 역할을 하는 완전히 개방된 최첨단 사후 훈련 모델 패밀리로, 데이터, 코드 및 훈련 레시피를 함께 제공합니다. Llama 3.1 기본 모델을 기반으로 하는 T\"ULU 3은 Llama 3.1, Qwen 2.5, Mistral 및 GPT-4o-mini, Claude 3.5-Haiku와 같은 닫힌 모델을 능가하는 결과를 달성합니다. 우리 모델의 훈련 알고리즘에는 지도된 미세조정 (SFT), 직접적인 선호도 최적화 (DPO), 그리고 우리가 Verifiable Rewards와 함께 한 강화 학습이라고 부르는 새로운 방법이 포함됩니다. T\"ULU 3을 통해, 개발 및 보이지 않는 평가, 표준 벤치마크 구현, 그리고 해당 벤치마크에 대한 기존 개방 데이터 세트의 심각한 오염 제거를 포함한 사후 훈련 레시피에 대한 다중 작업 평가 체계를 소개합니다. 신뢰할 수 없이 성능을 향상시키지 못한 훈련 방법에 대한 분석과 토론으로 마무리합니다. T\"ULU 3 모델 가중치와 데모뿐만 아니라, 다양한 핵심 기술을 위한 데이터 세트, 데이터 정제 및 평가를 위한 견고한 툴킷, 훈련 코드 및 인프라, 그리고 더 많은 도메인에 대한 T\"ULU 3 접근 방식을 재현하고 추가적으로 적응하기 위한 상세 보고서를 포함한 완전한 레시피를 공개합니다.