OpenBezoar: Маленькие, экономичные и открытые модели, обученные на смесях инструкционных данных
OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
April 18, 2024
Авторы: Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake
cs.AI
Аннотация
Тонкая настройка заранее обученных языковых моделей для различных последующих задач продемонстрировала выдающийся успех и привлекла интерес как у академиков, так и у практиков. Для обеспечения соответствия таких тонко настроенных языковых моделей предпочтениям человека появились методики, такие как RLHF и DPO. В то же время наблюдается увеличенный интерес к уменьшению количества параметров моделей. В данной работе, используя OpenLLaMA 3Bv2 в качестве базовой модели, мы описываем рецепт, использованный для тонкой настройки семейства моделей OpenBezoar. В этом рецепте: сначала мы генерируем синтетические данные для тонкой настройки посредством открытой и коммерчески нерестриктивной варианта тонкой настройки инструкций модели Falcon-40B по трём схемам на основе: LaMini-LM, WizardLM/Evol-Instruct (с набором данных databricks-dolly-15k в качестве исходного набора данных) и Orca (с коллекцией Flan в качестве исходного набора данных), затем фильтруем эти генерации с помощью GPT-4 в качестве человеческого прокси. Затем мы последовательно выполняем эффективную с точки зрения затрат тонкую настройку под наблюдением с использованием QLoRA с каждой схемой. Полученную контрольную точку дополнительно тонко настраиваем с помощью подмножества набора данных HH-RLHF для минимизации сдвига распределения перед использованием потерь DPO для получения конечной контрольной точки. Оценка производится с использованием задач/метрик LM Eval Harness, а также на MT-Bench с использованием фреймворка "LLM-как-судья" с помощью Claude 2.1, с выводом о том, что конечная контрольная точка "OpenBezoar-HH-RLHF-DPO" демонстрирует превосходную производительность по сравнению с многими моделями на масштабе параметров 3B, даже превосходя лучшую модель в одной из категорий на доске лидеров Huggingface Open LLM. Мы выпускаем контрольные точки "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", наряду с нашими сгенерированными наборами данных на HuggingFace по адресу https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc и нашим кодовым базисом по адресу https://bitbucket.org/paladinanalytics/workspace/projects/OP.
English
Instruction fine-tuning pretrained LLMs for diverse downstream tasks has
demonstrated remarkable success and has captured the interest of both academics
and practitioners. To ensure such fine-tuned LLMs align with human preferences,
techniques such as RLHF and DPO have emerged. At the same time, there is
increasing interest in smaller parameter counts for models. In this work, using
OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the
OpenBezoar family of models. In this recipe: We first generate synthetic
instruction fine-tuning data using an open and commercially non-restrictive
instruction fine-tuned variant of the Falcon-40B model under three schemes
based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a
seed dataset) and Orca (with the Flan Collection as a seed dataset), then
filter these generations using GPT-4 as a human proxy. We then perform
cost-effective QLoRA-based supervised fine-tuning sequentially with each
scheme. The resulting checkpoint is further fine-tuned with a subset of the
HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to
obtain the final checkpoint. Evaluation is done with the LM Eval Harness
tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with
Claude 2.1, with the finding that the final checkpoint,
"OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at
the 3B parameter scale, even outperforming the top model in one of the
categories on the Huggingface Open LLM Leaderboard. We release
"OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO"
checkpoints, alongside our generated datasets on HuggingFace at
https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc
and our codebase at
https://bitbucket.org/paladinanalytics/workspace/projects/OP.Summary
AI-Generated Summary