OpenBezoar: Маленькие, экономичные и открытые модели, обученные на смесях инструкционных данных

Аннотация

Тонкая настройка заранее обученных языковых моделей для различных последующих задач продемонстрировала выдающийся успех и привлекла интерес как у академиков, так и у практиков. Для обеспечения соответствия таких тонко настроенных языковых моделей предпочтениям человека появились методики, такие как RLHF и DPO. В то же время наблюдается увеличенный интерес к уменьшению количества параметров моделей. В данной работе, используя OpenLLaMA 3Bv2 в качестве базовой модели, мы описываем рецепт, использованный для тонкой настройки семейства моделей OpenBezoar. В этом рецепте: сначала мы генерируем синтетические данные для тонкой настройки посредством открытой и коммерчески нерестриктивной варианта тонкой настройки инструкций модели Falcon-40B по трём схемам на основе: LaMini-LM, WizardLM/Evol-Instruct (с набором данных databricks-dolly-15k в качестве исходного набора данных) и Orca (с коллекцией Flan в качестве исходного набора данных), затем фильтруем эти генерации с помощью GPT-4 в качестве человеческого прокси. Затем мы последовательно выполняем эффективную с точки зрения затрат тонкую настройку под наблюдением с использованием QLoRA с каждой схемой. Полученную контрольную точку дополнительно тонко настраиваем с помощью подмножества набора данных HH-RLHF для минимизации сдвига распределения перед использованием потерь DPO для получения конечной контрольной точки. Оценка производится с использованием задач/метрик LM Eval Harness, а также на MT-Bench с использованием фреймворка "LLM-как-судья" с помощью Claude 2.1, с выводом о том, что конечная контрольная точка "OpenBezoar-HH-RLHF-DPO" демонстрирует превосходную производительность по сравнению с многими моделями на масштабе параметров 3B, даже превосходя лучшую модель в одной из категорий на доске лидеров Huggingface Open LLM. Мы выпускаем контрольные точки "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", наряду с нашими сгенерированными наборами данных на HuggingFace по адресу https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc и нашим кодовым базисом по адресу https://bitbucket.org/paladinanalytics/workspace/projects/OP.

English

Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.

OpenBezoar: Маленькие, экономичные и открытые модели, обученные на смесях инструкционных данных

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Аннотация

Support