번역이 포함된 일일 선별된 AI 연구 논문
생성형 사전 학습 트랜스포머(GPT) 모델은 그 능력 면에서 흥미로운 진전을 보이며 실무자와 대중의 관심을 동시에 사로잡고 있습니다. 그러나 GPT 모델의 신뢰성에 관한 문헌은 여전히 제한적인 반면, 실무자들은 민감한 의료 및 금융 분야의 응용에 GPT 모델을 활용할 것을 제안하고 있습니다. 이러한 분야에서는 실수가 치명적인 결과를 초래할 수 있습니다. 이를 위해 본 연구는 GPT-4와 GPT-3.5를 중심으로 대규모 언어 모델에 대한 포괄적인 신뢰성 평가를 제안하며, 독성, 고정관념 편향, 적대적 강건성, 분포 외 강건성, 적대적 시연에 대한 강건성, 프라이버시, 기계 윤리, 공정성 등 다양한 관점을 고려합니다. 우리의 평가를 통해 이전에 발표되지 않은 신뢰성 위협에 대한 취약점을 발견했습니다. 예를 들어, GPT 모델이 쉽게 오도되어 독성과 편향된 출력을 생성하고, 훈련 데이터와 대화 기록에서 개인 정보를 유출할 수 있음을 확인했습니다. 또한, GPT-4가 표준 벤치마크에서는 일반적으로 GPT-3.5보다 더 신뢰할 만하지만, 시스템 또는 사용자 프롬프트를 통해 탈옥(jailbreaking)이 주어졌을 때 GPT-4가 더 취약할 수 있음을 발견했습니다. 이는 GPT-4가 (오도된) 지시를 더 정확히 따르기 때문일 가능성이 있습니다. 우리의 연구는 GPT 모델에 대한 포괄적인 신뢰성 평가를 보여주며, 신뢰성 격차에 대한 통찰을 제공합니다. 우리의 벤치마크는 https://decodingtrust.github.io/에서 공개적으로 이용 가능합니다.