每日精选AI研究论文及翻译
生成式预训练变换器(GPT)模型在能力方面取得了令人振奋的进展,引起了从业者和公众的兴趣。然而,尽管有关GPT模型可信度的文献仍然有限,从业者已经提出将功能强大的GPT模型应用于医疗保健和金融等敏感应用领域 - 在这些领域错误可能代价高昂。为此,本文提出了对大型语言模型进行全面可信度评估的方法,重点关注GPT-4和GPT-3.5,考虑了多种视角 - 包括毒性、刻板印象偏见、对抗鲁棒性、分布外鲁棒性、对抗示范的鲁棒性、隐私、机器伦理和公平性。根据我们的评估,我们发现了以前未公开的可信度威胁漏洞。例如,我们发现GPT模型很容易被误导生成有毒和带偏见的输出,并泄露训练数据和对话历史中的私人信息。我们还发现,尽管GPT-4在标准基准测试中通常比GPT-3.5更可信,但在越狱系统或用户提示方面更容易受到攻击,可能是因为GPT-4更精确地遵循(误导性的)指令。我们的工作展示了对GPT模型进行全面可信度评估,并揭示了可信度方面的差距。我们的基准测试公开可在https://decodingtrust.github.io/获取。