Советник по данным: Динамическая курирование данных для обеспечения безопасности крупных языковых моделей.
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models
October 7, 2024
Авторы: Fei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan
cs.AI
Аннотация
Данные являются ключевым элементом в выравнивании больших языковых моделей (LLM). Недавние исследования исследовали использование LLM для эффективного сбора данных. Однако данные, созданные LLM, часто страдают от проблем качества, таких как недостаточно представленные или отсутствующие аспекты и низкокачественные точки данных. Для решения этих проблем мы предлагаем Data Advisor, улучшенный метод на основе LLM для генерации данных, который учитывает характеристики желаемого набора данных. Начиная с набора заранее определенных принципов, Data Advisor отслеживает состояние созданных данных, выявляет слабые места в текущем наборе данных и дает рекомендации для следующей итерации генерации данных. Data Advisor может легко интегрироваться в существующие методы генерации данных для улучшения качества и охвата данных. Эксперименты по безопасному выравниванию трех представительных LLM (Mistral, Llama2 и Falcon) демонстрируют эффективность Data Advisor в улучшении безопасности модели против различных тонких проблем безопасности без ущерба для полезности модели.
English
Data is a crucial element in large language model (LLM) alignment. Recent
studies have explored using LLMs for efficient data collection. However,
LLM-generated data often suffers from quality issues, with underrepresented or
absent aspects and low-quality datapoints. To address these problems, we
propose Data Advisor, an enhanced LLM-based method for generating data that
takes into account the characteristics of the desired dataset. Starting from a
set of pre-defined principles in hand, Data Advisor monitors the status of the
generated data, identifies weaknesses in the current dataset, and advises the
next iteration of data generation accordingly. Data Advisor can be easily
integrated into existing data generation methods to enhance data quality and
coverage. Experiments on safety alignment of three representative LLMs (i.e.,
Mistral, Llama2, and Falcon) demonstrate the effectiveness of Data Advisor in
enhancing model safety against various fine-grained safety issues without
sacrificing model utility.Summary
AI-Generated Summary