인간 데이터를 넘어: 언어 모델을 활용한 문제 해결을 위한 자기 학습의 확장
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
December 11, 2023
저자: Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel
cs.AI
초록
인간이 생성한 데이터를 기반으로 언어 모델(LMs)을 미세 조정하는 것은 여전히 널리 사용되는 방법입니다. 그러나 이러한 모델의 성능은 고품질 인간 데이터의 양과 다양성에 의해 종종 제한됩니다. 본 논문에서는 정확성을 검증할 수 있는 수학 문제와 같이 스칼라 피드백에 접근할 수 있는 작업에서 인간 데이터를 넘어설 수 있는지 탐구합니다. 이를 위해 우리는 기대값 최대화(expectation-maximization) 기반의 간단한 자기 학습 방법인 ReST^{EM}을 조사합니다. 이 방법은 (1) 모델에서 샘플을 생성하고 이진 피드백을 사용하여 필터링, (2) 이러한 샘플로 모델을 미세 조정, (3) 이 과정을 몇 번 반복하는 단계로 구성됩니다. PaLM-2 모델을 사용하여 고급 MATH 추론 및 APPS 코딩 벤치마크에서 테스트한 결과, ReST^{EM}은 모델 크기에 따라 유리하게 확장되며 인간 데이터만으로 미세 조정한 경우를 크게 능가하는 것으로 나타났습니다. 전반적으로, 우리의 연구 결과는 피드백을 통한 자기 학습이 인간 생성 데이터에 대한 의존성을 크게 줄일 수 있음을 시사합니다.
English
Fine-tuning language models~(LMs) on human-generated data remains a prevalent
practice. However, the performance of such models is often limited by the
quantity and diversity of high-quality human data. In this paper, we explore
whether we can go beyond human data on tasks where we have access to scalar
feedback, for example, on math problems where one can verify correctness. To do
so, we investigate a simple self-training method based on
expectation-maximization, which we call ReST^{EM}, where we (1) generate
samples from the model and filter them using binary feedback, (2) fine-tune the
model on these samples, and (3) repeat this process a few times. Testing on
advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find
that ReST^{EM} scales favorably with model size and significantly surpasses
fine-tuning only on human data. Overall, our findings suggest self-training
with feedback can substantially reduce dependence on human-generated data.