OpenBezoar: Kleine, kostengünstige und offene Modelle, die auf Mischungen von Anweisungsdaten trainiert sind.

papers.abstract

Die Feinabstimmung von vortrainierten LLMs für verschiedene nachgelagerte Aufgaben hat eine bemerkenswerte Erfolgsgeschichte gezeigt und das Interesse sowohl von Akademikern als auch von Praktikern geweckt. Um sicherzustellen, dass solche feinabgestimmten LLMs mit menschlichen Präferenzen übereinstimmen, sind Techniken wie RLHF und DPO entstanden. Gleichzeitig wächst das Interesse an kleineren Parameterzahlen für Modelle. In dieser Arbeit beschreiben wir unter Verwendung von OpenLLaMA 3Bv2 als Basismodell das Rezept, das zur Feinabstimmung der OpenBezoar-Modellfamilie verwendet wird. In diesem Rezept: Generieren wir zunächst synthetische Daten zur Feinabstimmung von Anweisungen unter Verwendung einer offenen und kommerziell nicht einschränkenden Variante des Falcon-40B-Modells unter drei Schemata basierend auf: LaMini-LM, WizardLM/Evol-Instruct (mit databricks-dolly-15k als Ausgangsdatensatz) und Orca (mit der Flan Collection als Ausgangsdatensatz), filtern dann diese Generationen unter Verwendung von GPT-4 als menschlichem Proxy. Anschließend führen wir eine kosteneffektive, auf QLoRA basierende überwachte Feinabstimmung nacheinander mit jedem Schema durch. Der resultierende Kontrollpunkt wird weiter mit einem Teil des HH-RLHF-Datensatzes feinabgestimmt, um Verschiebungen in der Verteilung zu minimieren, bevor der DPO-Verlust verwendet wird, um den endgültigen Kontrollpunkt zu erhalten. Die Bewertung erfolgt mit den LM Eval Harness-Aufgaben/Metriken sowie auf MT-Bench unter Verwendung des "LLM-als-Richter"-Rahmens mit Claude 2.1, wobei festgestellt wird, dass der endgültige Kontrollpunkt "OpenBezoar-HH-RLHF-DPO" eine überlegene Leistung im Vergleich zu vielen Modellen im Maßstab von 3B-Parametern zeigt und sogar das Top-Modell in einer der Kategorien auf der Huggingface Open LLM Leaderboard übertrifft. Wir veröffentlichen die Kontrollpunkte "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" zusammen mit unseren generierten Datensätzen auf HuggingFace unter https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc und unserem Codebase unter https://bitbucket.org/paladinanalytics/workspace/projects/OP.

English

Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.

OpenBezoar: Kleine, kostengünstige und offene Modelle, die auf Mischungen von Anweisungsdaten trainiert sind.

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

papers.abstract

Support