翻訳付きの日次キュレーションされたAI研究論文
Generative Pre-trained Transformer(GPT)モデルは、その能力において目覚ましい進歩を示し、実務家や一般の人々の関心を集めています。しかし、GPTモデルの信頼性に関する文献はまだ限られており、実務家たちは、医療や金融といったミスが高くつく可能性のあるセンシティブなアプリケーションにGPTモデルを活用することを提案しています。この目的のために、本研究では、GPT-4とGPT-3.5に焦点を当てた大規模言語モデルの包括的な信頼性評価を提案します。この評価では、毒性、ステレオタイプバイアス、敵対的ロバスト性、分布外ロバスト性、敵対的デモンストレーションに対するロバスト性、プライバシー、機械倫理、公平性といった多様な視点を考慮しています。我々の評価に基づき、これまで未発表であった信頼性に対する脆弱性を発見しました。例えば、GPTモデルは、容易に誤導されて有毒で偏った出力を生成したり、トレーニングデータや会話履歴からプライベートな情報を漏洩したりすることがわかりました。また、標準的なベンチマークではGPT-4の方が通常GPT-3.5よりも信頼性が高いものの、GPT-4はジャイルブレイキングシステムやユーザープロンプトに対してより脆弱であり、これはGPT-4が(誤った)指示により忠実に従うためである可能性があります。本研究は、GPTモデルの包括的な信頼性評価を示し、信頼性のギャップに光を当てています。我々のベンチマークはhttps://decodingtrust.github.io/で公開されています。