Datenberater: Dynamische Datenkuratierung zur Sicherheitsausrichtung großer Sprachmodelle
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models
October 7, 2024
Autoren: Fei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan
cs.AI
Zusammenfassung
Daten sind ein entscheidendes Element bei der Ausrichtung großer Sprachmodelle (LLMs). In jüngsten Studien wurde untersucht, wie LLMs zur effizienten Datensammlung genutzt werden können. Allerdings leiden von LLMs generierte Daten oft unter Qualitätsproblemen, wie unterrepräsentierte oder fehlende Aspekte und Datensätze von geringer Qualität. Um diese Probleme anzugehen, schlagen wir Data Advisor vor, eine verbesserte, auf LLMs basierende Methode zur Generierung von Daten, die die Merkmale des gewünschten Datensatzes berücksichtigt. Ausgehend von einem Satz vordefinierter Prinzipien überwacht Data Advisor den Status der generierten Daten, identifiziert Schwächen im aktuellen Datensatz und gibt entsprechende Ratschläge für die nächste Iteration der Datenerzeugung. Data Advisor kann problemlos in bestehende Methoden zur Datenerzeugung integriert werden, um die Datenqualität und -abdeckung zu verbessern. Experimente zur Sicherheitsausrichtung von drei repräsentativen LLMs (Mistral, Llama2 und Falcon) zeigen die Wirksamkeit von Data Advisor bei der Verbesserung der Modellsicherheit gegen verschiedene feingranulare Sicherheitsprobleme, ohne die Modell-Nützlichkeit zu beeinträchtigen.
English
Data is a crucial element in large language model (LLM) alignment. Recent
studies have explored using LLMs for efficient data collection. However,
LLM-generated data often suffers from quality issues, with underrepresented or
absent aspects and low-quality datapoints. To address these problems, we
propose Data Advisor, an enhanced LLM-based method for generating data that
takes into account the characteristics of the desired dataset. Starting from a
set of pre-defined principles in hand, Data Advisor monitors the status of the
generated data, identifies weaknesses in the current dataset, and advises the
next iteration of data generation accordingly. Data Advisor can be easily
integrated into existing data generation methods to enhance data quality and
coverage. Experiments on safety alignment of three representative LLMs (i.e.,
Mistral, Llama2, and Falcon) demonstrate the effectiveness of Data Advisor in
enhancing model safety against various fine-grained safety issues without
sacrificing model utility.Summary
AI-Generated Summary