Flacuna: Раскрытие потенциала решения задач Vicuna с помощью тонкой настройки FLAN
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
July 5, 2023
Авторы: Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria
cs.AI
Аннотация
Недавно выпуск INSTRUCTEVAL предоставил ценные данные о производительности крупных языковых моделей (LLM), использующих архитектуру "кодировщик-декодировщик" или только декодировщик. Интересно, что, несмотря на то, что они были представлены четыре года назад, LLM на основе T5, такие как FLAN-T5, продолжают превосходить последние модели на основе декодировщика, такие как LLAMA и VICUNA, в задачах, требующих общих навыков решения проблем. Это расхождение в производительности можно объяснить тремя ключевыми факторами: (1) Данные предварительного обучения, (2) Архитектура базовой модели и (3) Набор данных с инструкциями. В данном техническом отчете основное внимание уделяется исследованию влияния третьего фактора с использованием VICUNA — крупной языковой модели на основе LLAMA, которая была дообучена на диалогах ChatGPT. Для достижения этой цели мы дообучили VICUNA с использованием пользовательской коллекции наборов данных с инструкциями под названием FLANMINI. Эта коллекция включает подмножество крупномасштабного набора данных с инструкциями FLAN, а также различные наборы данных, связанные с кодом, и диалоговые наборы данных, полученные из ChatGPT/GPT-4. Этот набор данных содержит большое количество задач, требующих навыков решения проблем. Наши экспериментальные результаты убедительно свидетельствуют о том, что улучшенные способности нашей модели FLACUNA к решению проблем достигаются за счет дообучения VICUNA на наборе данных FLAN, что приводит к значительным улучшениям на множестве тестовых наборов данных в INSTRUCTEVAL. FLACUNA доступна публично по адресу https://huggingface.co/declare-lab/flacuna-13b-v1.0.
English
Recently, the release of INSTRUCTEVAL has provided valuable insights into the
performance of large language models (LLMs) that utilize encoder-decoder or
decoder-only architecture. Interestingly, despite being introduced four years
ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest
decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general
problem-solving skills. This performance discrepancy can be attributed to three
key factors: (1) Pre-training data, (2) Backbone architecture, and (3)
Instruction dataset. In this technical report, our main focus is on
investigating the impact of the third factor by leveraging VICUNA, a large
language model based on LLAMA, which has undergone fine-tuning on ChatGPT
conversations. To achieve this objective, we fine-tuned VICUNA using a
customized instruction dataset collection called FLANMINI. This collection
includes a subset of the large-scale instruction dataset known as FLAN, as well
as various code-related datasets and conversational datasets derived from
ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand
problem-solving skills. Our experimental findings strongly indicate that the
enhanced problem-solving abilities of our model, FLACUNA, are obtained through
fine-tuning VICUNA on the FLAN dataset, leading to significant improvements
across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly
available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.