OpenBezoar : Des modèles petits, économiques et ouverts entraînés sur des mélanges de données d'instruction
OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
April 18, 2024
Auteurs: Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake
cs.AI
Résumé
L'affinage par instruction de grands modèles de langage (LLM) pré-entraînés pour diverses tâches en aval a démontré un succès remarquable et a capté l'intérêt tant des universitaires que des praticiens. Pour garantir que ces LLM affinés s'alignent sur les préférences humaines, des techniques telles que RLHF (Reinforcement Learning from Human Feedback) et DPO (Direct Preference Optimization) ont émergé. Parallèlement, l'intérêt pour des modèles avec un nombre de paramètres plus réduit s'accroît. Dans ce travail, en utilisant OpenLLaMA 3Bv2 comme modèle de base, nous décrivons la méthode utilisée pour affiner la famille de modèles OpenBezoar. Dans cette méthode : Nous générons d'abord des données synthétiques d'affinage par instruction en utilisant une variante ouverte et non restrictive commercialement du modèle Falcon-40B affiné par instruction, selon trois schémas basés sur : LaMini-LM, WizardLM/Evol-Instruct (avec databricks-dolly-15k comme jeu de données de départ) et Orca (avec la collection Flan comme jeu de données de départ), puis nous filtrons ces générations en utilisant GPT-4 comme proxy humain. Nous effectuons ensuite un affinage supervisé basé sur QLoRA de manière séquentielle avec chaque schéma. Le point de contrôle résultant est ensuite affiné avec un sous-ensemble du jeu de données HH-RLHF pour minimiser le décalage de distribution avant d'utiliser la perte DPO pour obtenir le point de contrôle final. L'évaluation est réalisée avec les târiques/métriques de LM Eval Harness ainsi que sur MT-Bench en utilisant le cadre "LLM-as-a-judge" avec Claude 2.1, avec la conclusion que le point de contrôle final, "OpenBezoar-HH-RLHF-DPO", démontre une performance supérieure à de nombreux modèles à l'échelle des 3B paramètres, surpassant même le meilleur modèle dans l'une des catégories du tableau de bord Open LLM de Huggingface. Nous publions les points de contrôle "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", ainsi que nos jeux de données générés sur HuggingFace à l'adresse https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc et notre base de code à l'adresse https://bitbucket.org/paladinanalytics/workspace/projects/OP.
English
Instruction fine-tuning pretrained LLMs for diverse downstream tasks has
demonstrated remarkable success and has captured the interest of both academics
and practitioners. To ensure such fine-tuned LLMs align with human preferences,
techniques such as RLHF and DPO have emerged. At the same time, there is
increasing interest in smaller parameter counts for models. In this work, using
OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the
OpenBezoar family of models. In this recipe: We first generate synthetic
instruction fine-tuning data using an open and commercially non-restrictive
instruction fine-tuned variant of the Falcon-40B model under three schemes
based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a
seed dataset) and Orca (with the Flan Collection as a seed dataset), then
filter these generations using GPT-4 as a human proxy. We then perform
cost-effective QLoRA-based supervised fine-tuning sequentially with each
scheme. The resulting checkpoint is further fine-tuned with a subset of the
HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to
obtain the final checkpoint. Evaluation is done with the LM Eval Harness
tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with
Claude 2.1, with the finding that the final checkpoint,
"OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at
the 3B parameter scale, even outperforming the top model in one of the
categories on the Huggingface Open LLM Leaderboard. We release
"OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO"
checkpoints, alongside our generated datasets on HuggingFace at
https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc
and our codebase at
https://bitbucket.org/paladinanalytics/workspace/projects/OP.Summary
AI-Generated Summary