每日精選AI研究論文及翻譯
生成式預訓練轉換器(GPT)模型展現了令人振奮的進展,引起了從業者和公眾的興趣。然而,雖然關於GPT模型可信度的文獻仍然有限,從業者已提出將功能強大的GPT模型應用於醫療和金融等敏感應用領域,其中錯誤可能代價高昂。為此,本研究提出了對大型語言模型進行全面可信度評估,重點關注GPT-4和GPT-3.5,考慮多元觀點,包括毒性、刻板印象偏見、對抗強健性、超出分佈強健性、對抗示範的強健性、隱私、機器倫理和公平性。根據我們的評估,我們發現了先前未公開的可信度威脅漏洞。例如,我們發現GPT模型很容易被誤導生成有毒和帶偏見的輸出,並在訓練數據和對話歷史中洩露私人信息。我們還發現,盡管在標準基準測試中GPT-4通常比GPT-3.5更可信,但在越獄系統或用戶提示方面,GPT-4更容易受攻擊,可能是因為GPT-4更精確地遵循(誤導性的)指示。我們的研究展示了對GPT模型的全面可信度評估,並揭示了可信度缺口。我們的基準測試公開在https://decodingtrust.github.io/。