ChatPaper.aiChatPaper

人間のデータを超えて:言語モデルによる問題解決のための自己学習のスケーリング

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

December 11, 2023
著者: Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel
cs.AI

要旨

人間が生成したデータを用いた言語モデル(LM)のファインチューニングは、依然として広く行われている手法です。しかし、そのようなモデルの性能は、高品質な人間データの量と多様性によって制限されることが多いです。本論文では、スカラー値のフィードバックが得られるタスク(例えば、正誤を検証可能な数学問題)において、人間データを超えることができるかどうかを探ります。そのために、期待値最大化法に基づくシンプルな自己学習手法であるReST^{EM}を提案し、調査を行います。この手法では、(1) モデルからサンプルを生成し、バイナリフィードバックを用いてフィルタリング、(2) これらのサンプルでモデルをファインチューニング、(3) このプロセスを数回繰り返します。PaLM-2モデルを用いて、高度なMATH推論およびAPPSコーディングのベンチマークでテストを行った結果、ReST^{EM}はモデルサイズに対して良好にスケールし、人間データのみでのファインチューニングを大幅に上回る性能を示しました。全体として、フィードバックを用いた自己学習は、人間生成データへの依存を大幅に軽減できる可能性が示唆されています。
English
Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST^{EM}, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST^{EM} scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
PDF293December 15, 2024