ChatPaper.aiChatPaper

Elster: Ausrichtungsdatensynthese von Grund auf durch Aufforderung von ausgerichteten LLMs ohne etwas

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

June 12, 2024
Autoren: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin
cs.AI

Zusammenfassung

Die Qualität der Anweisungsdaten ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs). Obwohl einige Modelle, wie z.B. Llama-3-Instruct, offene Gewichte haben, bleiben ihre Ausrichtungsdaten privat, was die Demokratisierung der KI behindert. Hohe menschliche Arbeitskosten und ein begrenzter, vordefinierter Umfang für Aufforderungen verhindern, dass bestehende Open-Source-Daten-Erstellungsmethoden effektiv skalieren, was die Vielfalt und Qualität öffentlicher Ausrichtungsdatensätze potenziell einschränkt. Ist es möglich, hochwertige Anweisungsdaten im großen Maßstab zu synthetisieren, indem sie direkt aus einem ausgerichteten LLM extrahiert werden? Wir stellen eine Selbstsynthesemethode zur Erzeugung von groß angelegten Ausrichtungsdaten namens Magpie vor. Unsere Schlüsselbeobachtung ist, dass ausgerichtete LLMs wie Llama-3-Instruct eine Benutzerabfrage generieren können, wenn wir nur die linksseitigen Vorlagen bis zur Position eingeben, die für Benutzermitteilungen reserviert ist, dank ihrer autoregressiven Natur. Wir verwenden diese Methode, um Llama-3-Instruct zu fördern und 4 Millionen Anweisungen zusammen mit ihren entsprechenden Antworten zu generieren. Wir führen eine umfassende Analyse der extrahierten Daten durch und wählen 300.000 hochwertige Instanzen aus. Um die Magpie-Daten mit anderen öffentlichen Anweisungsdatensätzen zu vergleichen, feinabstimmen wir Llama-3-8B-Base mit jedem Datensatz und bewerten die Leistung der feinabgestimmten Modelle. Unsere Ergebnisse deuten darauf hin, dass in einigen Aufgaben Modelle, die mit Magpie feinabgestimmt wurden, vergleichbar mit dem offiziellen Llama-3-8B-Instruct abschneiden, obwohl letzteres mit 10 Millionen Datenpunkten durch überwachtes Feintuning (SFT) und anschließendes Feedback-Lernen verbessert wurde. Wir zeigen auch, dass die ausschließliche Verwendung von Magpie für SFT die Leistung früherer öffentlicher Datensätze übertreffen kann, die sowohl für SFT als auch für Präferenzoptimierung genutzt wurden, wie z.B. direkte Präferenzoptimierung mit UltraFeedback. Dieser Vorteil zeigt sich bei Ausrichtungs-Benchmarks wie AlpacaEval, ArenaHard und WildBench.
English
High-quality instruction data is critical for aligning large language models (LLMs). Although some models, such as Llama-3-Instruct, have open weights, their alignment data remain private, which hinders the democratization of AI. High human labor costs and a limited, predefined scope for prompting prevent existing open-source data creation methods from scaling effectively, potentially limiting the diversity and quality of public alignment datasets. Is it possible to synthesize high-quality instruction data at scale by extracting it directly from an aligned LLM? We present a self-synthesis method for generating large-scale alignment data named Magpie. Our key observation is that aligned LLMs like Llama-3-Instruct can generate a user query when we input only the left-side templates up to the position reserved for user messages, thanks to their auto-regressive nature. We use this method to prompt Llama-3-Instruct and generate 4 million instructions along with their corresponding responses. We perform a comprehensive analysis of the extracted data and select 300K high-quality instances. To compare Magpie data with other public instruction datasets, we fine-tune Llama-3-8B-Base with each dataset and evaluate the performance of the fine-tuned models. Our results indicate that in some tasks, models fine-tuned with Magpie perform comparably to the official Llama-3-8B-Instruct, despite the latter being enhanced with 10 million data points through supervised fine-tuning (SFT) and subsequent feedback learning. We also show that using Magpie solely for SFT can surpass the performance of previous public datasets utilized for both SFT and preference optimization, such as direct preference optimization with UltraFeedback. This advantage is evident on alignment benchmarks such as AlpacaEval, ArenaHard, and WildBench.

Summary

AI-Generated Summary

PDF705December 8, 2024