직접 선호 최적화를 통한 자기 학습이 사고 연쇄 추론을 향상시킨다
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
저자: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
초록
수학적 추론 작업을 위한 언어 모델(LM)의 효과적인 학습은 고품질의 지도 미세 조정 데이터를 요구합니다. 인간 전문가로부터 주석을 얻는 것 외에, 더 크고 강력한 LM에서 샘플링하는 것이 일반적인 대안입니다. 그러나 이러한 지식 증류 방식은 비용이 많이 들고 불안정할 수 있으며, 특히 GPT-4와 같은 폐쇄형 독점 LM에 의존할 때 그 행동이 종종 예측 불가능합니다. 본 연구에서는 소규모 LM의 추론 능력이 자기 학습을 통해 향상될 수 있음을 보여줍니다. 자기 학습은 모델이 자신의 출력에서 학습하는 과정입니다. 또한, 기존의 자기 학습이 Direct Preference Optimization(DPO)라는 선호 학습 알고리즘을 통해 더욱 강화될 수 있음을 보여줍니다. DPO를 자기 학습에 통합함으로써, 선호 데이터를 활용하여 LM이 더 정확하고 다양한 사고 연쇄 추론을 하도록 유도합니다. 다양한 기본 모델을 사용하여 여러 수학적 추론 작업에서 이 방법을 평가합니다. 실험 결과, 이 접근법은 LM의 추론 성능을 향상시킬 뿐만 아니라, 대형 독점 LM에 의존하는 것보다 더 비용 효율적이고 확장 가능한 솔루션을 제공합니다.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary