Исследовать, Установить, Использовать: Тестирование языковых моделей методом "красной команды" с нуля

Аннотация

Развертывание крупных языковых моделей (LLM) может сопровождаться рисками генерации вредоносных выходных данных, таких как токсичные или нечестные высказывания. Предыдущие исследования предложили инструменты, которые провоцируют вредоносные выходные данные с целью выявления и смягчения этих рисков. Хотя это важный шаг в обеспечении безопасности языковых моделей, такие подходы обычно полагаются на предварительно существующий классификатор для нежелательных выходных данных. Это ограничивает их применение ситуациями, где тип вредоносного поведения известен заранее с высокой точностью. Однако это упускает ключевую задачу "красного командования" (red teaming): развитие контекстуального понимания поведения, которое может демонстрировать модель. Более того, если такой классификатор уже существует, "красное командование" имеет ограниченную дополнительную ценность, поскольку классификатор можно просто использовать для фильтрации обучающих данных или выходных данных модели. В данной работе мы рассматриваем "красное командование" в предположении, что противник работает с высокоуровневым, абстрактным описанием нежелательного поведения. Ожидается, что команда "красных" уточнит/расширит это описание и определит методы провоцирования такого поведения у модели. Наш фреймворк "красного командования" состоит из трех шагов: 1) Исследование поведения модели в заданном контексте; 2) Установление меры нежелательного поведения (например, классификатора, обученного на основе человеческих оценок); и 3) Использование уязвимостей модели с помощью этой меры и установленной методологии "красного командования". Мы применяем этот подход для "красного командования" моделей GPT-2 и GPT-3, чтобы систематически обнаруживать классы запросов, провоцирующих токсичные и нечестные высказывания. В процессе мы также создаем и публикуем набор данных CommonClaim, содержащий 20 000 высказываний, помеченных людьми как общеизвестно истинные, общеизвестно ложные или ни то, ни другое. Код доступен по адресу https://github.com/thestephencasper/explore_establish_exploit_llms. Набор данных CommonClaim доступен по адресу https://github.com/thestephencasper/common_claim.

English

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/thestephencasper/common_claim.

Исследовать, Установить, Использовать: Тестирование языковых моделей методом "красной команды" с нуля

Explore, Establish, Exploit: Red Teaming Language Models from Scratch

Аннотация

Support