OpenBezoar: Kleine, kosteneffectieve en open modellen getraind op mengsels van instructiedata

Samenvatting

Het fine-tunen van vooraf getrainde grote taalmodellen (LLMs) voor diverse downstream taken heeft opmerkelijke successen laten zien en heeft de interesse gewekt van zowel academici als praktijkmensen. Om ervoor te zorgen dat dergelijke fine-tuned LLMs overeenkomen met menselijke voorkeuren, zijn technieken zoals RLHF en DPO ontstaan. Tegelijkertijd is er een groeiende interesse in modellen met een kleiner aantal parameters. In dit werk, waarbij we OpenLLaMA 3Bv2 als basismodel gebruiken, beschrijven we het recept dat is gebruikt om de OpenBezoar-familie van modellen te fine-tunen. In dit recept: We genereren eerst synthetische fine-tuning data voor instructies met behulp van een open en commercieel niet-beperkende variant van het Falcon-40B-model dat is fine-tuned voor instructies, onder drie schema's gebaseerd op: LaMini-LM, WizardLM/Evol-Instruct (met databricks-dolly-15k als een seed dataset) en Orca (met de Flan Collection als een seed dataset), waarna we deze generaties filteren met GPT-4 als een menselijke proxy. Vervolgens voeren we kosteneffectieve supervised fine-tuning uit op basis van QLoRA, sequentieel met elk schema. Het resulterende checkpoint wordt verder fine-tuned met een subset van de HH-RLHF dataset om distributieverschuiving te minimaliseren voordat we de DPO-loss gebruiken om het uiteindelijke checkpoint te verkrijgen. Evaluatie wordt uitgevoerd met de taken/metrieken van de LM Eval Harness, evenals op MT-Bench met behulp van het "LLM-as-a-judge" framework met Claude 2.1, waarbij wordt geconstateerd dat het uiteindelijke checkpoint, "OpenBezoar-HH-RLHF-DPO", superieure prestaties laat zien ten opzichte van veel modellen op de schaal van 3B parameters, en zelfs het topmodel in een van de categorieën op de Huggingface Open LLM Leaderboard overtreft. We publiceren de checkpoints "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", samen met onze gegenereerde datasets op HuggingFace op https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc en onze codebase op https://bitbucket.org/paladinanalytics/workspace/projects/OP.

English

Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.

OpenBezoar: Kleine, kosteneffectieve en open modellen getraind op mengsels van instructiedata

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Samenvatting

Support