DecodingTrust: GPT 모델의 신뢰성에 대한 포괄적 평가
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models
June 20, 2023
저자: Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li
cs.AI
초록
생성형 사전 학습 트랜스포머(GPT) 모델은 그 능력 면에서 흥미로운 진전을 보이며 실무자와 대중의 관심을 동시에 사로잡고 있습니다. 그러나 GPT 모델의 신뢰성에 관한 문헌은 여전히 제한적인 반면, 실무자들은 민감한 의료 및 금융 분야의 응용에 GPT 모델을 활용할 것을 제안하고 있습니다. 이러한 분야에서는 실수가 치명적인 결과를 초래할 수 있습니다. 이를 위해 본 연구는 GPT-4와 GPT-3.5를 중심으로 대규모 언어 모델에 대한 포괄적인 신뢰성 평가를 제안하며, 독성, 고정관념 편향, 적대적 강건성, 분포 외 강건성, 적대적 시연에 대한 강건성, 프라이버시, 기계 윤리, 공정성 등 다양한 관점을 고려합니다. 우리의 평가를 통해 이전에 발표되지 않은 신뢰성 위협에 대한 취약점을 발견했습니다. 예를 들어, GPT 모델이 쉽게 오도되어 독성과 편향된 출력을 생성하고, 훈련 데이터와 대화 기록에서 개인 정보를 유출할 수 있음을 확인했습니다. 또한, GPT-4가 표준 벤치마크에서는 일반적으로 GPT-3.5보다 더 신뢰할 만하지만, 시스템 또는 사용자 프롬프트를 통해 탈옥(jailbreaking)이 주어졌을 때 GPT-4가 더 취약할 수 있음을 발견했습니다. 이는 GPT-4가 (오도된) 지시를 더 정확히 따르기 때문일 가능성이 있습니다. 우리의 연구는 GPT 모델에 대한 포괄적인 신뢰성 평가를 보여주며, 신뢰성 격차에 대한 통찰을 제공합니다. 우리의 벤치마크는 https://decodingtrust.github.io/에서 공개적으로 이용 가능합니다.
English
Generative Pre-trained Transformer (GPT) models have exhibited exciting
progress in capabilities, capturing the interest of practitioners and the
public alike. Yet, while the literature on the trustworthiness of GPT models
remains limited, practitioners have proposed employing capable GPT models for
sensitive applications to healthcare and finance - where mistakes can be
costly. To this end, this work proposes a comprehensive trustworthiness
evaluation for large language models with a focus on GPT-4 and GPT-3.5,
considering diverse perspectives - including toxicity, stereotype bias,
adversarial robustness, out-of-distribution robustness, robustness on
adversarial demonstrations, privacy, machine ethics, and fairness. Based on our
evaluations, we discover previously unpublished vulnerabilities to
trustworthiness threats. For instance, we find that GPT models can be easily
misled to generate toxic and biased outputs and leak private information in
both training data and conversation history. We also find that although GPT-4
is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more
vulnerable given jailbreaking system or user prompts, potentially due to the
reason that GPT-4 follows the (misleading) instructions more precisely. Our
work illustrates a comprehensive trustworthiness evaluation of GPT models and
sheds light on the trustworthiness gaps. Our benchmark is publicly available at
https://decodingtrust.github.io/.