生産用言語モデルの一部を盗用するStealing Part of a Production Language Model
本論文では、OpenAIのChatGPTやGoogleのPaLM-2のようなブラックボックス型の実用言語モデルから、正確で非自明な情報を抽出する初めてのモデル窃取攻撃を紹介する。具体的には、典型的なAPIアクセスを前提として、トランスフォーマーモデルの埋め込み射影層(対称性を除いて)を復元する攻撃を提案する。20ドル未満のコストで、OpenAIのAdaおよびBabbage言語モデルの射影行列全体を抽出することに成功し、これらのブラックボックスモデルの隠れ次元がそれぞれ1024および2048であることを初めて確認した。また、gpt-3.5-turboモデルの正確な隠れ次元サイズも復元し、射影行列全体を復元するためのクエリコストが2000ドル未満であると推定した。最後に、潜在的な防御策と緩和策を提示し、本攻撃を拡張する可能性のある今後の研究の意義について議論する。