AI는 아픈 아이들을 구하기 위해 거짓말을 할 것인가? AI 가치 우선순위의 리트머스 테스트: AIRiskDilemmas를 통한 검증

초록

강력한 모델이 등장하고 이러한 탐지 시도를 우회하기 위해 '정렬 위조(Alignment Faking)'와 같은 새로운 방법을 찾아내면서 AI 위험 탐지는 점점 더 어려워지고 있다. 인간의 위험한 행동(즉, 타인을 해칠 수 있는 불법 활동)이 때로 강력하게 고수되는 가치에 의해 이끌어진다는 점에서 영감을 받아, 우리는 AI 모델 내부의 가치를 식별하는 것이 AI의 위험한 행동에 대한 조기 경보 시스템이 될 수 있다고 믿는다. 우리는 다양한 AI 가치 클래스에 대한 AI 모델의 우선순위를 드러내기 위한 평가 파이프라인인 'LitmusValues'를 개발했다. 그런 다음, '권력 추구(Power Seeking)'와 같은 AI 안전 위험과 관련된 시나리오에서 가치를 서로 대립시키는 다양한 딜레마 모음인 'AIRiskDilemmas'를 수집했다. AI 모델의 가치 우선순위를 그 집계된 선택을 통해 측정함으로써, 잠재적 위험을 드러내는 자체 일관된 예측 가치 우선순위 집합을 얻는다. 우리는 LitmusValues의 가치(예: '돌봄(Care)'과 같이 겉보기에는 무해해 보이는 가치 포함)가 AIRiskDilemmas에서 관찰된 위험한 행동과 HarmBench에서 관찰되지 않은 위험한 행동 모두를 예측할 수 있음을 보여준다.

English

Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models' priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model's value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.

AI는 아픈 아이들을 구하기 위해 거짓말을 할 것인가? AI 가치 우선순위의 리트머스 테스트: AIRiskDilemmas를 통한 검증

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

초록

Support