推論能力の民主化:大規模言語モデルからのカスタマイズ学習
Democratizing Reasoning Ability: Tailored Learning from Large Language Model
October 20, 2023
著者: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
要旨
大規模言語モデル(LLM)は自然言語処理において印象的な創発能力を示しますが、その民主化は膨大な計算リソースの要件とクローズドソースの性質によって妨げられています。最近の研究では、ブラックボックス型LLMから知識を蒸留することで、オープンソースの小型LMを進化させ、指示追従能力において有望な結果を得ています。しかし、より習得が困難な推論能力については、比較的検討が進んでいません。本論文では、この排他的な推論能力の民主化を促進するため、小型LMに推論能力を蒸留するための特化した学習アプローチを提案します。単にLLMをデータアノテーターとして利用するのではなく、LLMを推論教師として活用し、インタラクティブな多段階学習パラダイムを構築します。このパラダイムにより、学生モデルは自身の欠点をブラックボックス教師に提示し、教師はそれに応じたカスタマイズされた学習データを提供できます。さらに、小型LMの推論ポテンシャルを最大限に引き出すため、自己反省学習を提案し、学生モデルが自らの誤りから学ぶことを促します。自己反省学習とLLMからの学習は、多段階学習パラダイムとのシームレスな統合により、学生モデルの学習状況に合わせて調整されます。数学的推論と常識推論タスクにおける包括的な実験と分析により、本手法の有効性が実証されました。コードはhttps://github.com/Raibows/Learn-to-Reasonで公開予定です。
English
Large language models (LLMs) exhibit impressive emergent abilities in natural
language processing, but their democratization is hindered due to huge
computation requirements and closed-source nature. Recent research on advancing
open-source smaller LMs by distilling knowledge from black-box LLMs has
obtained promising results in the instruction-following ability. However, the
reasoning ability which is more challenging to foster, is relatively rarely
explored. In this paper, we propose a tailored learning approach to distill
such reasoning ability to smaller LMs to facilitate the democratization of the
exclusive reasoning ability. In contrast to merely employing LLM as a data
annotator, we exploit the potential of LLM as a reasoning teacher by building
an interactive multi-round learning paradigm. This paradigm enables the student
to expose its deficiencies to the black-box teacher who then can provide
customized training data in return. Further, to exploit the reasoning potential
of the smaller LM, we propose self-reflection learning to motivate the student
to learn from self-made mistakes. The learning from self-reflection and LLM are
all tailored to the student's learning status, thanks to the seamless
integration with the multi-round learning paradigm. Comprehensive experiments
and analysis on mathematical and commonsense reasoning tasks demonstrate the
effectiveness of our method. The code will be available at
https://github.com/Raibows/Learn-to-Reason.