Bekommen Sie, wofür Sie bezahlen? Überprüfung der Modellsubstitution in LLM-APIs

papers.abstract

Die Verbreitung von Large Language Models (LLMs), die über Black-Box-APIs zugänglich sind, stellt eine erhebliche Vertrauensherausforderung dar: Nutzer zahlen für Dienstleistungen basierend auf beworbenen Modellfähigkeiten (z. B. Größe, Leistung), doch Anbieter könnten das spezifizierte Modell heimlich durch eine kostengünstigere, qualitativ minderwertige Alternative ersetzen, um Betriebskosten zu senken. Dieser Mangel an Transparenz untergräbt Fairness, beeinträchtigt das Vertrauen und erschwert zuverlässige Benchmarking-Verfahren. Das Erkennen solcher Substitutionen ist aufgrund der Black-Box-Natur schwierig, da die Interaktion typischerweise auf Eingabe-Ausgabe-Abfragen beschränkt ist. Dieses Papier formalisiert das Problem der Modellsubstitutionserkennung in LLM-APIs. Wir evaluieren systematisch bestehende Verifikationstechniken, einschließlich output-basierter statistischer Tests, Benchmark-Evaluierungen und Log-Wahrscheinlichkeitsanalysen, unter verschiedenen realistischen Angriffsszenarien wie Modellquantisierung, randomisierter Substitution und Benchmark-Umgehung. Unsere Ergebnisse zeigen die Grenzen von Methoden, die sich ausschließlich auf Textausgaben verlassen, insbesondere gegenüber subtilen oder adaptiven Angriffen. Während die Log-Wahrscheinlichkeitsanalyse stärkere Garantien bietet, wenn sie verfügbar ist, ist ihre Zugänglichkeit oft eingeschränkt. Wir schließen mit einer Diskussion über das Potenzial hardwarebasierter Lösungen wie Trusted Execution Environments (TEEs) als Weg zur nachweisbaren Modellintegrität und beleuchten die Abwägungen zwischen Sicherheit, Leistung und Anbieterakzeptanz. Der Code ist verfügbar unter https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

Bekommen Sie, wofür Sie bezahlen? Überprüfung der Modellsubstitution in LLM-APIs

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

papers.abstract

Support