Datenberater: Dynamische Datenkuratierung zur Sicherheitsausrichtung großer Sprachmodelle

papers.abstract

Daten sind ein entscheidendes Element bei der Ausrichtung großer Sprachmodelle (LLMs). In jüngsten Studien wurde untersucht, wie LLMs zur effizienten Datensammlung genutzt werden können. Allerdings leiden von LLMs generierte Daten oft unter Qualitätsproblemen, wie unterrepräsentierte oder fehlende Aspekte und Datensätze von geringer Qualität. Um diese Probleme anzugehen, schlagen wir Data Advisor vor, eine verbesserte, auf LLMs basierende Methode zur Generierung von Daten, die die Merkmale des gewünschten Datensatzes berücksichtigt. Ausgehend von einem Satz vordefinierter Prinzipien überwacht Data Advisor den Status der generierten Daten, identifiziert Schwächen im aktuellen Datensatz und gibt entsprechende Ratschläge für die nächste Iteration der Datenerzeugung. Data Advisor kann problemlos in bestehende Methoden zur Datenerzeugung integriert werden, um die Datenqualität und -abdeckung zu verbessern. Experimente zur Sicherheitsausrichtung von drei repräsentativen LLMs (Mistral, Llama2 und Falcon) zeigen die Wirksamkeit von Data Advisor bei der Verbesserung der Modellsicherheit gegen verschiedene feingranulare Sicherheitsprobleme, ohne die Modell-Nützlichkeit zu beeinträchtigen.

English

Data is a crucial element in large language model (LLM) alignment. Recent studies have explored using LLMs for efficient data collection. However, LLM-generated data often suffers from quality issues, with underrepresented or absent aspects and low-quality datapoints. To address these problems, we propose Data Advisor, an enhanced LLM-based method for generating data that takes into account the characteristics of the desired dataset. Starting from a set of pre-defined principles in hand, Data Advisor monitors the status of the generated data, identifies weaknesses in the current dataset, and advises the next iteration of data generation accordingly. Data Advisor can be easily integrated into existing data generation methods to enhance data quality and coverage. Experiments on safety alignment of three representative LLMs (i.e., Mistral, Llama2, and Falcon) demonstrate the effectiveness of Data Advisor in enhancing model safety against various fine-grained safety issues without sacrificing model utility.

Datenberater: Dynamische Datenkuratierung zur Sicherheitsausrichtung großer Sprachmodelle

Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

papers.abstract

Support