あなたは支払った対価を得ていますか?LLM APIにおけるモデル置換の監査
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs
April 7, 2025
著者: Will Cai, Tianneng Shi, Xuandong Zhao, Dawn Song
cs.AI
要旨
大規模言語モデル(LLMs)がブラックボックスAPIを通じて広く利用されるようになる中で、重要な信頼性の問題が浮上しています。ユーザーは、宣伝されているモデルの能力(例:サイズ、性能)に基づいてサービスを購入しますが、プロバイダーは運用コストを削減するために、指定されたモデルをより安価で品質の低い代替モデルに密かに置き換える可能性があります。この透明性の欠如は公平性を損ない、信頼を蝕み、信頼性のあるベンチマークを複雑にします。ブラックボックスの性質上、入出力クエリに限定されるため、このような置き換えを検出することは困難です。本論文では、LLM APIにおけるモデル置き換え検出の問題を形式化します。我々は、モデルの量子化、ランダムな置き換え、ベンチマーク回避などの現実的な攻撃シナリオの下で、出力ベースの統計的テスト、ベンチマーク評価、対数確率分析などの既存の検証技術を体系的に評価します。我々の調査結果は、特に微妙な適応的攻撃に対して、テキスト出力のみに依存する方法の限界を明らかにします。対数確率分析は利用可能な場合に強力な保証を提供しますが、そのアクセシビリティはしばしば制限されています。最後に、信頼できる実行環境(TEEs)のようなハードウェアベースのソリューションが、証明可能なモデル整合性への道筋としての可能性を議論し、セキュリティ、性能、プロバイダーの採用の間のトレードオフを強調します。コードはhttps://github.com/sunblaze-ucb/llm-api-auditで公開されています。
English
The proliferation of Large Language Models (LLMs) accessed via black-box APIs
introduces a significant trust challenge: users pay for services based on
advertised model capabilities (e.g., size, performance), but providers may
covertly substitute the specified model with a cheaper, lower-quality
alternative to reduce operational costs. This lack of transparency undermines
fairness, erodes trust, and complicates reliable benchmarking. Detecting such
substitutions is difficult due to the black-box nature, typically limiting
interaction to input-output queries. This paper formalizes the problem of model
substitution detection in LLM APIs. We systematically evaluate existing
verification techniques, including output-based statistical tests, benchmark
evaluations, and log probability analysis, under various realistic attack
scenarios like model quantization, randomized substitution, and benchmark
evasion. Our findings reveal the limitations of methods relying solely on text
outputs, especially against subtle or adaptive attacks. While log probability
analysis offers stronger guarantees when available, its accessibility is often
limited. We conclude by discussing the potential of hardware-based solutions
like Trusted Execution Environments (TEEs) as a pathway towards provable model
integrity, highlighting the trade-offs between security, performance, and
provider adoption. Code is available at
https://github.com/sunblaze-ucb/llm-api-auditSummary
AI-Generated Summary