OPT-R: 대규모 언어 모델의 추론 능력을 위한 미세 조정 및 프롬프팅에서 설명의 역할 탐구
OPT-R: Exploring the Role of Explanations in Finetuning and Prompting for Reasoning Skills of Large Language Models
May 19, 2023
저자: Badr AlKhamissi, Siddharth Verma, Ping Yu, Zhijing Jin, Asli Celikyilmaz, Mona Diab
cs.AI
초록
본 논문에서는 대규모 언어 모델(LLMs)의 추론 능력을 심층적으로 조사하며, 특히 이러한 모델의 대표적인 예로 Open Pretrained Transformers(OPT) 모델에 초점을 맞춥니다. 우리의 연구는 신중하게 선별된 추론 코퍼스에 대해 세 가지 크기의 OPT 모델을 미세 조정하는 것을 포함하며, 이로 인해 설명 없이 미세 조정된 OPT-R 모델과 설명과 함께 미세 조정된 OPT-RE 모델 두 세트가 생성됩니다. 그런 다음 SUPER-NATURALINSTRUCTIONS 벤치마크에서 추출된 57개의 도메인 외 작업에 대해 세 가지 프롬프트 기법을 활용하여 모든 모델을 평가하며, 이는 26개의 구별된 추론 기술을 포괄합니다. 27가지 구성과 6,156개의 테스트 평가를 통해 미세 조정, 프롬프트, 규모의 차원을 조사하여 다양한 추론 기술에서 설명의 역할을 이해합니다. 우리의 연구 결과는 모델이 미세 조정된 경우 몇 가지 예제에 설명이 포함되어도 모델의 성능에 유의미한 영향을 미치지 않는 반면, 미세 조정되지 않은 모델에서는 긍정적인 영향을 미친다는 것을 보여줍니다. 또한, 프롬프트와 미세 조정 과정에서 설명을 포함할 때 분류 정확도가 약간이지만 일관되게 증가하는 것을 관찰합니다. 마지막으로, 미세 조정과 프롬프트 과정에서 설명을 포함함으로써 가장 큰 이점을 얻는 기술(예: 수치 추론(+20.4%) 및 유추 추론(+13.9%))과 미미하거나 부정적인 영향을 보이는 기술에 대한 통찰을 제공합니다.
English
In this paper, we conduct a thorough investigation into the reasoning
capabilities of Large Language Models (LLMs), focusing specifically on the Open
Pretrained Transformers (OPT) models as a representative of such models. Our
study entails finetuning three different sizes of OPT on a carefully curated
reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned
without explanations, and OPT-RE, finetuned with explanations. We then evaluate
all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS
benchmark, covering 26 distinct reasoning skills, utilizing three prompting
techniques. Through a comprehensive grid of 27 configurations and 6,156 test
evaluations, we investigate the dimensions of finetuning, prompting, and scale
to understand the role of explanations on different reasoning skills. Our
findings reveal that having explanations in the fewshot exemplar has no
significant impact on the model's performance when the model is finetuned,
while positively affecting the non-finetuned counterpart. Moreover, we observe
a slight yet consistent increase in classification accuracy as we incorporate
explanations during prompting and finetuning, respectively. Finally, we offer
insights on which skills benefit the most from incorporating explanations
during finetuning and prompting, such as Numerical (+20.4%) and Analogical
(+13.9%) reasoning, as well as skills that exhibit negligible or negative
effects.