OPT-R: Explorando o Papel das Explicações no Ajuste Fino e na Formulação de Instruções para Habilidades de Raciocínio em Modelos de Linguagem de Grande Escala
OPT-R: Exploring the Role of Explanations in Finetuning and Prompting for Reasoning Skills of Large Language Models
May 19, 2023
Autores: Badr AlKhamissi, Siddharth Verma, Ping Yu, Zhijing Jin, Asli Celikyilmaz, Mona Diab
cs.AI
Resumo
Neste artigo, realizamos uma investigação detalhada sobre as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs), com foco específico nos modelos Open Pretrained Transformers (OPT) como representantes dessa categoria. Nosso estudo envolve o ajuste fino de três tamanhos diferentes de OPT em um corpus de raciocínio cuidadosamente selecionado, resultando em dois conjuntos de modelos ajustados: OPT-R, ajustado sem explicações, e OPT-RE, ajustado com explicações. Em seguida, avaliamos todos os modelos em 57 tarefas fora do domínio extraídas do benchmark SUPER-NATURALINSTRUCTIONS, abrangendo 26 habilidades de raciocínio distintas, utilizando três técnicas de prompting. Através de uma grade abrangente de 27 configurações e 6.156 avaliações de teste, investigamos as dimensões de ajuste fino, prompting e escala para entender o papel das explicações em diferentes habilidades de raciocínio. Nossos resultados revelam que a presença de explicações nos exemplos fewshot não tem um impacto significativo no desempenho do modelo quando este é ajustado, enquanto afeta positivamente a contraparte não ajustada. Além disso, observamos um aumento leve, porém consistente, na precisão de classificação à medida que incorporamos explicações durante o prompting e o ajuste fino, respectivamente. Por fim, oferecemos insights sobre quais habilidades se beneficiam mais da incorporação de explicações durante o ajuste fino e o prompting, como Raciocínio Numérico (+20,4%) e Raciocínio Analógico (+13,9%), bem como habilidades que apresentam efeitos negligenciáveis ou negativos.
English
In this paper, we conduct a thorough investigation into the reasoning
capabilities of Large Language Models (LLMs), focusing specifically on the Open
Pretrained Transformers (OPT) models as a representative of such models. Our
study entails finetuning three different sizes of OPT on a carefully curated
reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned
without explanations, and OPT-RE, finetuned with explanations. We then evaluate
all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS
benchmark, covering 26 distinct reasoning skills, utilizing three prompting
techniques. Through a comprehensive grid of 27 configurations and 6,156 test
evaluations, we investigate the dimensions of finetuning, prompting, and scale
to understand the role of explanations on different reasoning skills. Our
findings reveal that having explanations in the fewshot exemplar has no
significant impact on the model's performance when the model is finetuned,
while positively affecting the non-finetuned counterpart. Moreover, we observe
a slight yet consistent increase in classification accuracy as we incorporate
explanations during prompting and finetuning, respectively. Finally, we offer
insights on which skills benefit the most from incorporating explanations
during finetuning and prompting, such as Numerical (+20.4%) and Analogical
(+13.9%) reasoning, as well as skills that exhibit negligible or negative
effects.