Flacuna: Раскрытие потенциала решения задач Vicuna с помощью тонкой настройки FLAN

Аннотация

Недавно выпуск INSTRUCTEVAL предоставил ценные данные о производительности крупных языковых моделей (LLM), использующих архитектуру "кодировщик-декодировщик" или только декодировщик. Интересно, что, несмотря на то, что они были представлены четыре года назад, LLM на основе T5, такие как FLAN-T5, продолжают превосходить последние модели на основе декодировщика, такие как LLAMA и VICUNA, в задачах, требующих общих навыков решения проблем. Это расхождение в производительности можно объяснить тремя ключевыми факторами: (1) Данные предварительного обучения, (2) Архитектура базовой модели и (3) Набор данных с инструкциями. В данном техническом отчете основное внимание уделяется исследованию влияния третьего фактора с использованием VICUNA — крупной языковой модели на основе LLAMA, которая была дообучена на диалогах ChatGPT. Для достижения этой цели мы дообучили VICUNA с использованием пользовательской коллекции наборов данных с инструкциями под названием FLANMINI. Эта коллекция включает подмножество крупномасштабного набора данных с инструкциями FLAN, а также различные наборы данных, связанные с кодом, и диалоговые наборы данных, полученные из ChatGPT/GPT-4. Этот набор данных содержит большое количество задач, требующих навыков решения проблем. Наши экспериментальные результаты убедительно свидетельствуют о том, что улучшенные способности нашей модели FLACUNA к решению проблем достигаются за счет дообучения VICUNA на наборе данных FLAN, что приводит к значительным улучшениям на множестве тестовых наборов данных в INSTRUCTEVAL. FLACUNA доступна публично по адресу https://huggingface.co/declare-lab/flacuna-13b-v1.0.

English

Recently, the release of INSTRUCTEVAL has provided valuable insights into the performance of large language models (LLMs) that utilize encoder-decoder or decoder-only architecture. Interestingly, despite being introduced four years ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general problem-solving skills. This performance discrepancy can be attributed to three key factors: (1) Pre-training data, (2) Backbone architecture, and (3) Instruction dataset. In this technical report, our main focus is on investigating the impact of the third factor by leveraging VICUNA, a large language model based on LLAMA, which has undergone fine-tuning on ChatGPT conversations. To achieve this objective, we fine-tuned VICUNA using a customized instruction dataset collection called FLANMINI. This collection includes a subset of the large-scale instruction dataset known as FLAN, as well as various code-related datasets and conversational datasets derived from ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand problem-solving skills. Our experimental findings strongly indicate that the enhanced problem-solving abilities of our model, FLACUNA, are obtained through fine-tuning VICUNA on the FLAN dataset, leading to significant improvements across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.

Flacuna: Раскрытие потенциала решения задач Vicuna с помощью тонкой настройки FLAN

Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning

Аннотация

Support