OPT-R: Explorando o Papel das Explicações no Ajuste Fino e na Formulação de Instruções para Habilidades de Raciocínio em Modelos de Linguagem de Grande Escala

Resumo

Neste artigo, realizamos uma investigação detalhada sobre as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs), com foco específico nos modelos Open Pretrained Transformers (OPT) como representantes dessa categoria. Nosso estudo envolve o ajuste fino de três tamanhos diferentes de OPT em um corpus de raciocínio cuidadosamente selecionado, resultando em dois conjuntos de modelos ajustados: OPT-R, ajustado sem explicações, e OPT-RE, ajustado com explicações. Em seguida, avaliamos todos os modelos em 57 tarefas fora do domínio extraídas do benchmark SUPER-NATURALINSTRUCTIONS, abrangendo 26 habilidades de raciocínio distintas, utilizando três técnicas de prompting. Através de uma grade abrangente de 27 configurações e 6.156 avaliações de teste, investigamos as dimensões de ajuste fino, prompting e escala para entender o papel das explicações em diferentes habilidades de raciocínio. Nossos resultados revelam que a presença de explicações nos exemplos fewshot não tem um impacto significativo no desempenho do modelo quando este é ajustado, enquanto afeta positivamente a contraparte não ajustada. Além disso, observamos um aumento leve, porém consistente, na precisão de classificação à medida que incorporamos explicações durante o prompting e o ajuste fino, respectivamente. Por fim, oferecemos insights sobre quais habilidades se beneficiam mais da incorporação de explicações durante o ajuste fino e o prompting, como Raciocínio Numérico (+20,4%) e Raciocínio Analógico (+13,9%), bem como habilidades que apresentam efeitos negligenciáveis ou negativos.

English

In this paper, we conduct a thorough investigation into the reasoning capabilities of Large Language Models (LLMs), focusing specifically on the Open Pretrained Transformers (OPT) models as a representative of such models. Our study entails finetuning three different sizes of OPT on a carefully curated reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned without explanations, and OPT-RE, finetuned with explanations. We then evaluate all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS benchmark, covering 26 distinct reasoning skills, utilizing three prompting techniques. Through a comprehensive grid of 27 configurations and 6,156 test evaluations, we investigate the dimensions of finetuning, prompting, and scale to understand the role of explanations on different reasoning skills. Our findings reveal that having explanations in the fewshot exemplar has no significant impact on the model's performance when the model is finetuned, while positively affecting the non-finetuned counterpart. Moreover, we observe a slight yet consistent increase in classification accuracy as we incorporate explanations during prompting and finetuning, respectively. Finally, we offer insights on which skills benefit the most from incorporating explanations during finetuning and prompting, such as Numerical (+20.4%) and Analogical (+13.9%) reasoning, as well as skills that exhibit negligible or negative effects.

OPT-R: Explorando o Papel das Explicações no Ajuste Fino e na Formulação de Instruções para Habilidades de Raciocínio em Modelos de Linguagem de Grande Escala

OPT-R: Exploring the Role of Explanations in Finetuning and Prompting for Reasoning Skills of Large Language Models

Resumo

Support