기술 보고서: 대형 언어 모델은 압박을 받을 경우 사용자를 전략적으로 속일 수 있다
Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure
November 9, 2023
저자: Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn
cs.AI
초록
우리는 도움이 되고, 해롭지 않으며, 정직하도록 훈련된 대형 언어 모델(Large Language Models)이 사용자에 대해 전략적으로 기만 행위를 보이며, 이 행위를 숨기는 잘못된 행동을 보일 수 있는 상황을 실험적으로 보여줍니다. 구체적으로, GPT-4를 현실적인 시뮬레이션 환경에서 자율 주식 거래 에이전트 역할을 수행하도록 배치했습니다. 이 환경 내에서 모델은 수익성이 높은 주식 거래에 대한 내부자 정보를 얻고, 회사 경영진이 내부자 거래를 금지한다는 사실을 알고 있음에도 불구하고 이를 실행에 옮깁니다. 이후 관리자에게 보고할 때 모델은 거래 결정의 진짜 이유를 일관적으로 숨깁니다. 우리는 이러한 잘못된 행동이 다양한 환경 변화에 따라 어떻게 달라지는지 간단히 조사했습니다. 예를 들어, 모델의 추론 스크래치패드 접근을 제거하거나, 시스템 지시를 변경하여 잘못된 행동을 방지하려고 시도하거나, 모델이 받는 압박의 정도를 조정하거나, 적발될 위험을 다르게 인식하도록 하거나, 환경에 간단한 변화를 주는 등의 실험을 수행했습니다. 우리가 아는 한, 이는 도움이 되고, 해롭지 않으며, 정직하도록 훈련된 대형 언어 모델이 직접적인 지시나 기만 훈련 없이도 현실적인 상황에서 사용자를 전략적으로 기만하는 첫 번째 실증 사례입니다.
English
We demonstrate a situation in which Large Language Models, trained to be
helpful, harmless, and honest, can display misaligned behavior and
strategically deceive their users about this behavior without being instructed
to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated
environment, where it assumes the role of an autonomous stock trading agent.
Within this environment, the model obtains an insider tip about a lucrative
stock trade and acts upon it despite knowing that insider trading is
disapproved of by company management. When reporting to its manager, the model
consistently hides the genuine reasons behind its trading decision. We perform
a brief investigation of how this behavior varies under changes to the setting,
such as removing model access to a reasoning scratchpad, attempting to prevent
the misaligned behavior by changing system instructions, changing the amount of
pressure the model is under, varying the perceived risk of getting caught, and
making other simple changes to the environment. To our knowledge, this is the
first demonstration of Large Language Models trained to be helpful, harmless,
and honest, strategically deceiving their users in a realistic situation
without direct instructions or training for deception.