Flacuna: Liberando o Poder de Resolução de Problemas do Vicuna por meio de Fine-Tuning com FLAN
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
July 5, 2023
Autores: Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria
cs.AI
Resumo
Recentemente, o lançamento do INSTRUCTEVAL forneceu insights valiosos sobre o desempenho de grandes modelos de linguagem (LLMs) que utilizam arquiteturas encoder-decoder ou apenas decoder. Curiosamente, apesar de terem sido introduzidos há quatro anos, LLMs baseados em T5, como o FLAN-T5, continuam a superar os mais recentes LLMs baseados em decoder, como LLAMA e VICUNA, em tarefas que exigem habilidades gerais de resolução de problemas. Essa discrepância de desempenho pode ser atribuída a três fatores principais: (1) Dados de pré-treinamento, (2) Arquitetura de backbone e (3) Conjunto de dados de instruções. Neste relatório técnico, nosso foco principal é investigar o impacto do terceiro fator, utilizando o VICUNA, um grande modelo de linguagem baseado no LLAMA, que foi ajustado em conversas do ChatGPT. Para atingir esse objetivo, ajustamos o VICUNA usando uma coleção personalizada de conjuntos de dados de instruções chamada FLANMINI. Essa coleção inclui um subconjunto do grande conjunto de dados de instruções conhecido como FLAN, além de vários conjuntos de dados relacionados a código e conjuntos de dados conversacionais derivados do ChatGPT/GPT-4. Esse conjunto de dados compreende um grande número de tarefas que exigem habilidades de resolução de problemas. Nossos resultados experimentais indicam fortemente que as habilidades aprimoradas de resolução de problemas do nosso modelo, FLACUNA, são obtidas através do ajuste fino do VICUNA no conjunto de dados FLAN, resultando em melhorias significativas em diversos conjuntos de dados de benchmark no INSTRUCTEVAL. O FLACUNA está publicamente disponível em https://huggingface.co/declare-lab/flacuna-13b-v1.0.
English
Recently, the release of INSTRUCTEVAL has provided valuable insights into the
performance of large language models (LLMs) that utilize encoder-decoder or
decoder-only architecture. Interestingly, despite being introduced four years
ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest
decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general
problem-solving skills. This performance discrepancy can be attributed to three
key factors: (1) Pre-training data, (2) Backbone architecture, and (3)
Instruction dataset. In this technical report, our main focus is on
investigating the impact of the third factor by leveraging VICUNA, a large
language model based on LLAMA, which has undergone fine-tuning on ChatGPT
conversations. To achieve this objective, we fine-tuned VICUNA using a
customized instruction dataset collection called FLANMINI. This collection
includes a subset of the large-scale instruction dataset known as FLAN, as well
as various code-related datasets and conversational datasets derived from
ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand
problem-solving skills. Our experimental findings strongly indicate that the
enhanced problem-solving abilities of our model, FLACUNA, are obtained through
fine-tuning VICUNA on the FLAN dataset, leading to significant improvements
across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly
available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.