Flacuna: Het Probleemoplossend Vermogen van Vicuna Ontketenen met FLAN Fine-Tuning
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
July 5, 2023
Auteurs: Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria
cs.AI
Samenvatting
Onlangs heeft de release van INSTRUCTEVAL waardevolle inzichten geboden in de prestaties van grote taalmodellen (LLM's) die gebruikmaken van een encoder-decoder- of decoder-only-architectuur. Interessant genoeg blijven T5-gebaseerde LLM's, zoals FLAN-T5, ondanks dat ze vier jaar geleden zijn geïntroduceerd, de nieuwste decoder-gebaseerde LLM's, zoals LLAMA en VICUNA, overtreffen bij taken die algemene probleemoplossende vaardigheden vereisen. Dit prestatieverschil kan worden toegeschreven aan drie belangrijke factoren: (1) Pre-trainingsdata, (2) Backbone-architectuur, en (3) Instructiedataset. In dit technische rapport ligt onze focus voornamelijk op het onderzoeken van de impact van de derde factor door gebruik te maken van VICUNA, een groot taalmodel gebaseerd op LLAMA, dat is verfijnd op ChatGPT-conversaties. Om dit doel te bereiken, hebben we VICUNA verfijnd met behulp van een aangepaste verzameling instructiedatasets genaamd FLANMINI. Deze verzameling omvat een subset van de grootschalige instructiedataset FLAN, evenals diverse code-gerelateerde datasets en conversatiedatasets afgeleid van ChatGPT/GPT-4. Deze dataset bevat een groot aantal taken die probleemoplossende vaardigheden vereisen. Onze experimentele bevindingen tonen sterk aan dat de verbeterde probleemoplossende vaardigheden van ons model, FLACUNA, worden verkregen door VICUNA te verfijnen op de FLAN-dataset, wat leidt tot significante verbeteringen op tal van benchmarkdatasets in INSTRUCTEVAL. FLACUNA is publiekelijk beschikbaar op https://huggingface.co/declare-lab/flacuna-13b-v1.0.
English
Recently, the release of INSTRUCTEVAL has provided valuable insights into the
performance of large language models (LLMs) that utilize encoder-decoder or
decoder-only architecture. Interestingly, despite being introduced four years
ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest
decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general
problem-solving skills. This performance discrepancy can be attributed to three
key factors: (1) Pre-training data, (2) Backbone architecture, and (3)
Instruction dataset. In this technical report, our main focus is on
investigating the impact of the third factor by leveraging VICUNA, a large
language model based on LLAMA, which has undergone fine-tuning on ChatGPT
conversations. To achieve this objective, we fine-tuned VICUNA using a
customized instruction dataset collection called FLANMINI. This collection
includes a subset of the large-scale instruction dataset known as FLAN, as well
as various code-related datasets and conversational datasets derived from
ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand
problem-solving skills. Our experimental findings strongly indicate that the
enhanced problem-solving abilities of our model, FLACUNA, are obtained through
fine-tuning VICUNA on the FLAN dataset, leading to significant improvements
across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly
available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.