OpenBezoar : Des modèles petits, économiques et ouverts entraînés sur des mélanges de données d'instruction

papers.abstract

L'affinage par instruction de grands modèles de langage (LLM) pré-entraînés pour diverses tâches en aval a démontré un succès remarquable et a capté l'intérêt tant des universitaires que des praticiens. Pour garantir que ces LLM affinés s'alignent sur les préférences humaines, des techniques telles que RLHF (Reinforcement Learning from Human Feedback) et DPO (Direct Preference Optimization) ont émergé. Parallèlement, l'intérêt pour des modèles avec un nombre de paramètres plus réduit s'accroît. Dans ce travail, en utilisant OpenLLaMA 3Bv2 comme modèle de base, nous décrivons la méthode utilisée pour affiner la famille de modèles OpenBezoar. Dans cette méthode : Nous générons d'abord des données synthétiques d'affinage par instruction en utilisant une variante ouverte et non restrictive commercialement du modèle Falcon-40B affiné par instruction, selon trois schémas basés sur : LaMini-LM, WizardLM/Evol-Instruct (avec databricks-dolly-15k comme jeu de données de départ) et Orca (avec la collection Flan comme jeu de données de départ), puis nous filtrons ces générations en utilisant GPT-4 comme proxy humain. Nous effectuons ensuite un affinage supervisé basé sur QLoRA de manière séquentielle avec chaque schéma. Le point de contrôle résultant est ensuite affiné avec un sous-ensemble du jeu de données HH-RLHF pour minimiser le décalage de distribution avant d'utiliser la perte DPO pour obtenir le point de contrôle final. L'évaluation est réalisée avec les târiques/métriques de LM Eval Harness ainsi que sur MT-Bench en utilisant le cadre "LLM-as-a-judge" avec Claude 2.1, avec la conclusion que le point de contrôle final, "OpenBezoar-HH-RLHF-DPO", démontre une performance supérieure à de nombreux modèles à l'échelle des 3B paramètres, surpassant même le meilleur modèle dans l'une des catégories du tableau de bord Open LLM de Huggingface. Nous publions les points de contrôle "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", ainsi que nos jeux de données générés sur HuggingFace à l'adresse https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc et notre base de code à l'adresse https://bitbucket.org/paladinanalytics/workspace/projects/OP.

English

Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.

OpenBezoar : Des modèles petits, économiques et ouverts entraînés sur des mélanges de données d'instruction

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

papers.abstract

Support