추론 능력의 민주화: 대형 언어 모델을 통한 맞춤형 학습
Democratizing Reasoning Ability: Tailored Learning from Large Language Model
October 20, 2023
저자: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 자연어 처리 분야에서 인상적인 창발적 능력을 보여주지만, 막대한 계산 자원 요구와 폐쇄적인 소스 코드로 인해 그 대중화가 제한되고 있습니다. 최근 연구에서는 블랙박스 LLM으로부터 지식을 추출하여 오픈소스 소형 LM을 발전시키는 방법이 지시 수행 능력에서 유망한 결과를 얻었습니다. 그러나 더 도전적인 과제인 추론 능력은 상대적으로 덜 탐구되었습니다. 본 논문에서는 이러한 추론 능력을 소형 LM에 전수하여 독점적인 추론 능력의 대중화를 촉진하기 위한 맞춤형 학습 접근법을 제안합니다. 단순히 LLM을 데이터 주석자로 사용하는 것과 달리, 우리는 LLM을 추론 교사로 활용하여 상호작용적인 다중 라운드 학습 패러다임을 구축합니다. 이 패러다임은 학생이 블랙박스 교사에게 자신의 부족한 점을 노출시켜 교사가 맞춤형 훈련 데이터를 제공할 수 있도록 합니다. 또한, 소형 LM의 추론 잠재력을 극대화하기 위해 자기 성찰 학습을 제안하여 학생이 스스로 만든 실수로부터 배우도록 동기를 부여합니다. 자기 성찰 학습과 LLM으로부터의 학습은 모두 다중 라운드 학습 패러다임과의 원활한 통합 덕분에 학생의 학습 상태에 맞춰 조정됩니다. 수학적 및 상식적 추론 과제에 대한 포괄적인 실험과 분석을 통해 우리 방법의 효과성을 입증합니다. 코드는 https://github.com/Raibows/Learn-to-Reason에서 공개될 예정입니다.
English
Large language models (LLMs) exhibit impressive emergent abilities in natural
language processing, but their democratization is hindered due to huge
computation requirements and closed-source nature. Recent research on advancing
open-source smaller LMs by distilling knowledge from black-box LLMs has
obtained promising results in the instruction-following ability. However, the
reasoning ability which is more challenging to foster, is relatively rarely
explored. In this paper, we propose a tailored learning approach to distill
such reasoning ability to smaller LMs to facilitate the democratization of the
exclusive reasoning ability. In contrast to merely employing LLM as a data
annotator, we exploit the potential of LLM as a reasoning teacher by building
an interactive multi-round learning paradigm. This paradigm enables the student
to expose its deficiencies to the black-box teacher who then can provide
customized training data in return. Further, to exploit the reasoning potential
of the smaller LM, we propose self-reflection learning to motivate the student
to learn from self-made mistakes. The learning from self-reflection and LLM are
all tailored to the student's learning status, thanks to the seamless
integration with the multi-round learning paradigm. Comprehensive experiments
and analysis on mathematical and commonsense reasoning tasks demonstrate the
effectiveness of our method. The code will be available at
https://github.com/Raibows/Learn-to-Reason.