人間のデータを超えて:言語モデルによる問題解決のための自己学習のスケーリング
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
December 11, 2023
著者: Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel
cs.AI
要旨
人間が生成したデータを用いた言語モデル(LM)のファインチューニングは、依然として広く行われている手法です。しかし、そのようなモデルの性能は、高品質な人間データの量と多様性によって制限されることが多いです。本論文では、スカラー値のフィードバックが得られるタスク(例えば、正誤を検証可能な数学問題)において、人間データを超えることができるかどうかを探ります。そのために、期待値最大化法に基づくシンプルな自己学習手法であるReST^{EM}を提案し、調査を行います。この手法では、(1) モデルからサンプルを生成し、バイナリフィードバックを用いてフィルタリング、(2) これらのサンプルでモデルをファインチューニング、(3) このプロセスを数回繰り返します。PaLM-2モデルを用いて、高度なMATH推論およびAPPSコーディングのベンチマークでテストを行った結果、ReST^{EM}はモデルサイズに対して良好にスケールし、人間データのみでのファインチューニングを大幅に上回る性能を示しました。全体として、フィードバックを用いた自己学習は、人間生成データへの依存を大幅に軽減できる可能性が示唆されています。
English
Fine-tuning language models~(LMs) on human-generated data remains a prevalent
practice. However, the performance of such models is often limited by the
quantity and diversity of high-quality human data. In this paper, we explore
whether we can go beyond human data on tasks where we have access to scalar
feedback, for example, on math problems where one can verify correctness. To do
so, we investigate a simple self-training method based on
expectation-maximization, which we call ReST^{EM}, where we (1) generate
samples from the model and filter them using binary feedback, (2) fine-tune the
model on these samples, and (3) repeat this process a few times. Testing on
advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find
that ReST^{EM} scales favorably with model size and significantly surpasses
fine-tuning only on human data. Overall, our findings suggest self-training
with feedback can substantially reduce dependence on human-generated data.