직접 원칙 피드백을 통해 핑크 코끼리 억제하기
Suppressing Pink Elephants with Direct Principle Feedback
February 12, 2024
저자: Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman
cs.AI
초록
기존의 언어 모델 제어 방법, 예를 들어 RLHF(Reinforcement Learning from Human Feedback)와 Constitutional AI는 어떤 LLM(대형 언어 모델) 행동이 바람직한지를 결정하고 이를 언어 모델에 학습시키는 방식을 취합니다. 그러나 많은 경우, 추론 시점에서 LLM을 제어할 수 있도록 하는 것이 바람직하며, 이는 다양한 요구 사항을 가진 여러 맥락에서 사용될 수 있게 합니다. 우리는 이를 "핑크 코끼리 문제(Pink Elephant Problem)"로 설명합니다: LLM에게 특정 개체("핑크 코끼리")에 대해 논의하지 말고 대신 선호하는 개체("회색 코끼리")에 대해 논의하도록 지시하는 것입니다. 우리는 Constitutional AI의 새로운 단순화 방법인 Direct Principle Feedback(DPF)를 적용하여, 응답 순위 매기기를 건너뛰고 DPO(Direct Preference Optimization)를 비판과 수정에 직접 사용합니다. 우리의 실험 결과에 따르면, 합성된 핑크 코끼리 데이터셋에 대해 DPF 미세 조정을 거친 13B 크기의 미세 조정된 LLaMA 2 모델은 Llama-2-13B-Chat과 프롬프트 기반 베이스라인을 크게 능가하며, 핑크 코끼리 문제를 평가하기 위해 구성된 테스트 세트에서 GPT-4와 동등한 성능을 보였습니다.
English
Existing methods for controlling language models, such as RLHF and
Constitutional AI, involve determining which LLM behaviors are desirable and
training them into a language model. However, in many cases, it is desirable
for LLMs to be controllable at inference time, so that they can be
used in multiple contexts with diverse needs. We illustrate this with the
Pink Elephant Problem: instructing an LLM to avoid discussing a
certain entity (a ``Pink Elephant''), and instead discuss a preferred entity
(``Grey Elephant''). We apply a novel simplification of Constitutional AI,
Direct Principle Feedback, which skips the ranking of responses and
uses DPO directly on critiques and revisions. Our results show that after DPF
fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2
model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and
performs as well as GPT-4 in on our curated test set assessing the Pink
Elephant Problem.