Flacuna: Entfesselung der Problemlösungsfähigkeit von Vicuna durch FLAN-Feintuning
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
July 5, 2023
Autoren: Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria
cs.AI
Zusammenfassung
Kürzlich hat die Veröffentlichung von INSTRUCTEVAL wertvolle Einblicke in die Leistung großer Sprachmodelle (LLMs) mit Encoder-Decoder- oder Decoder-only-Architektur geliefert. Interessanterweise übertreffen T5-basierte LLMs, wie FLAN-T5, trotz ihrer Einführung vor vier Jahren weiterhin die neuesten Decoder-basierten LLMs, wie LLAMA und VICUNA, bei Aufgaben, die allgemeine Problemlösungsfähigkeiten erfordern. Diese Leistungsunterschiede können auf drei Schlüsselfaktoren zurückgeführt werden: (1) Pre-Training-Daten, (2) Backbone-Architektur und (3) Instruktionsdatensatz. In diesem technischen Bericht liegt unser Hauptaugenmerk auf der Untersuchung der Auswirkungen des dritten Faktors, indem wir VICUNA, ein großes Sprachmodell basierend auf LLAMA, das auf ChatGPT-Konversationen feinabgestimmt wurde, nutzen. Um dieses Ziel zu erreichen, haben wir VICUNA mit einer angepassten Instruktionsdatensatzsammlung namens FLANMINI feinabgestimmt. Diese Sammlung umfasst eine Teilmenge des groß angelegten Instruktionsdatensatzes FLAN sowie verschiedene codebezogene Datensätze und Konversationsdatensätze, die aus ChatGPT/GPT-4 abgeleitet wurden. Dieser Datensatz besteht aus einer Vielzahl von Aufgaben, die Problemlösungsfähigkeiten erfordern. Unsere experimentellen Ergebnisse deuten stark darauf hin, dass die verbesserten Problemlösungsfähigkeiten unseres Modells, FLACUNA, durch die Feinabstimmung von VICUNA auf den FLAN-Datensatz erzielt werden, was zu signifikanten Verbesserungen über zahlreiche Benchmark-Datensätze in INSTRUCTEVAL führt. FLACUNA ist öffentlich verfügbar unter https://huggingface.co/declare-lab/flacuna-13b-v1.0.
English
Recently, the release of INSTRUCTEVAL has provided valuable insights into the
performance of large language models (LLMs) that utilize encoder-decoder or
decoder-only architecture. Interestingly, despite being introduced four years
ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest
decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general
problem-solving skills. This performance discrepancy can be attributed to three
key factors: (1) Pre-training data, (2) Backbone architecture, and (3)
Instruction dataset. In this technical report, our main focus is on
investigating the impact of the third factor by leveraging VICUNA, a large
language model based on LLAMA, which has undergone fine-tuning on ChatGPT
conversations. To achieve this objective, we fine-tuned VICUNA using a
customized instruction dataset collection called FLANMINI. This collection
includes a subset of the large-scale instruction dataset known as FLAN, as well
as various code-related datasets and conversational datasets derived from
ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand
problem-solving skills. Our experimental findings strongly indicate that the
enhanced problem-solving abilities of our model, FLACUNA, are obtained through
fine-tuning VICUNA on the FLAN dataset, leading to significant improvements
across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly
available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.