Flacuna : Libérer la puissance de résolution de problèmes de Vicuna grâce au Fine-Tuning FLAN
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
July 5, 2023
Auteurs: Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria
cs.AI
Résumé
Récemment, la publication d'INSTRUCTEVAL a fourni des informations précieuses sur les performances des grands modèles de langage (LLMs) utilisant des architectures encodeur-décodeur ou décodeur uniquement. Fait intéressant, malgré leur introduction il y a quatre ans, les LLMs basés sur T5, tels que FLAN-T5, continuent de surpasser les derniers LLMs basés sur un décodeur, comme LLAMA et VICUNA, dans des tâches nécessitant des compétences générales en résolution de problèmes. Cette divergence de performance peut être attribuée à trois facteurs clés : (1) les données de pré-entraînement, (2) l'architecture de base, et (3) le jeu de données d'instructions. Dans ce rapport technique, nous nous concentrons principalement sur l'étude de l'impact du troisième facteur en exploitant VICUNA, un grand modèle de langage basé sur LLAMA, qui a été affiné sur des conversations de ChatGPT. Pour atteindre cet objectif, nous avons affiné VICUNA en utilisant une collection personnalisée de jeux de données d'instructions appelée FLANMINI. Cette collection inclut un sous-ensemble du vaste jeu de données d'instructions connu sous le nom de FLAN, ainsi que divers jeux de données liés au code et des jeux de données conversationnels dérivés de ChatGPT/GPT-4. Ce jeu de données comprend un grand nombre de tâches exigeant des compétences en résolution de problèmes. Nos résultats expérimentaux indiquent fortement que les capacités améliorées en résolution de problèmes de notre modèle, FLACUNA, sont obtenues grâce à l'affinement de VICUNA sur le jeu de données FLAN, entraînant des améliorations significatives sur de nombreux jeux de données de référence dans INSTRUCTEVAL. FLACUNA est disponible publiquement à l'adresse suivante : https://huggingface.co/declare-lab/flacuna-13b-v1.0.
English
Recently, the release of INSTRUCTEVAL has provided valuable insights into the
performance of large language models (LLMs) that utilize encoder-decoder or
decoder-only architecture. Interestingly, despite being introduced four years
ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest
decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general
problem-solving skills. This performance discrepancy can be attributed to three
key factors: (1) Pre-training data, (2) Backbone architecture, and (3)
Instruction dataset. In this technical report, our main focus is on
investigating the impact of the third factor by leveraging VICUNA, a large
language model based on LLAMA, which has undergone fine-tuning on ChatGPT
conversations. To achieve this objective, we fine-tuned VICUNA using a
customized instruction dataset collection called FLANMINI. This collection
includes a subset of the large-scale instruction dataset known as FLAN, as well
as various code-related datasets and conversational datasets derived from
ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand
problem-solving skills. Our experimental findings strongly indicate that the
enhanced problem-solving abilities of our model, FLACUNA, are obtained through
fine-tuning VICUNA on the FLAN dataset, leading to significant improvements
across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly
available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.