ChatPaper.aiChatPaper

인간 데이터를 넘어: 언어 모델을 활용한 문제 해결을 위한 자기 학습의 확장

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

December 11, 2023
저자: Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel
cs.AI

초록

인간이 생성한 데이터를 기반으로 언어 모델(LMs)을 미세 조정하는 것은 여전히 널리 사용되는 방법입니다. 그러나 이러한 모델의 성능은 고품질 인간 데이터의 양과 다양성에 의해 종종 제한됩니다. 본 논문에서는 정확성을 검증할 수 있는 수학 문제와 같이 스칼라 피드백에 접근할 수 있는 작업에서 인간 데이터를 넘어설 수 있는지 탐구합니다. 이를 위해 우리는 기대값 최대화(expectation-maximization) 기반의 간단한 자기 학습 방법인 ReST^{EM}을 조사합니다. 이 방법은 (1) 모델에서 샘플을 생성하고 이진 피드백을 사용하여 필터링, (2) 이러한 샘플로 모델을 미세 조정, (3) 이 과정을 몇 번 반복하는 단계로 구성됩니다. PaLM-2 모델을 사용하여 고급 MATH 추론 및 APPS 코딩 벤치마크에서 테스트한 결과, ReST^{EM}은 모델 크기에 따라 유리하게 확장되며 인간 데이터만으로 미세 조정한 경우를 크게 능가하는 것으로 나타났습니다. 전반적으로, 우리의 연구 결과는 피드백을 통한 자기 학습이 인간 생성 데이터에 대한 의존성을 크게 줄일 수 있음을 시사합니다.
English
Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST^{EM}, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST^{EM} scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
PDF293December 15, 2024