Obtenez-vous ce pour quoi vous payez ? Audit de la substitution de modèles dans les API de LLM
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs
April 7, 2025
Auteurs: Will Cai, Tianneng Shi, Xuandong Zhao, Dawn Song
cs.AI
Résumé
La prolifération des modèles de langage de grande taille (LLMs) accessibles via des API en boîte noire introduit un défi majeur en matière de confiance : les utilisateurs paient pour des services basés sur les capacités annoncées des modèles (par exemple, la taille, les performances), mais les fournisseurs peuvent substituer secrètement le modèle spécifié par une alternative moins chère et de moindre qualité pour réduire les coûts opérationnels. Ce manque de transparence compromet l'équité, érode la confiance et complique l'évaluation fiable. Détecter de telles substitutions est difficile en raison de la nature en boîte noire, limitant généralement l'interaction à des requêtes entrée-sortie. Cet article formalise le problème de la détection de substitution de modèles dans les API de LLMs. Nous évaluons systématiquement les techniques de vérification existantes, y compris les tests statistiques basés sur les sorties, les évaluations de référence et l'analyse des probabilités logarithmiques, sous divers scénarios d'attaque réalistes comme la quantification de modèles, la substitution aléatoire et l'évasion des benchmarks. Nos résultats révèlent les limites des méthodes reposant uniquement sur les sorties textuelles, en particulier contre des attaques subtiles ou adaptatives. Bien que l'analyse des probabilités logarithmiques offre des garanties plus solides lorsqu'elle est disponible, son accessibilité est souvent limitée. Nous concluons en discutant du potentiel des solutions matérielles comme les environnements d'exécution de confiance (TEEs) comme voie vers l'intégrité prouvable des modèles, en mettant en lumière les compromis entre sécurité, performance et adoption par les fournisseurs. Le code est disponible à l'adresse https://github.com/sunblaze-ucb/llm-api-audit.
English
The proliferation of Large Language Models (LLMs) accessed via black-box APIs
introduces a significant trust challenge: users pay for services based on
advertised model capabilities (e.g., size, performance), but providers may
covertly substitute the specified model with a cheaper, lower-quality
alternative to reduce operational costs. This lack of transparency undermines
fairness, erodes trust, and complicates reliable benchmarking. Detecting such
substitutions is difficult due to the black-box nature, typically limiting
interaction to input-output queries. This paper formalizes the problem of model
substitution detection in LLM APIs. We systematically evaluate existing
verification techniques, including output-based statistical tests, benchmark
evaluations, and log probability analysis, under various realistic attack
scenarios like model quantization, randomized substitution, and benchmark
evasion. Our findings reveal the limitations of methods relying solely on text
outputs, especially against subtle or adaptive attacks. While log probability
analysis offers stronger guarantees when available, its accessibility is often
limited. We conclude by discussing the potential of hardware-based solutions
like Trusted Execution Environments (TEEs) as a pathway towards provable model
integrity, highlighting the trade-offs between security, performance, and
provider adoption. Code is available at
https://github.com/sunblaze-ucb/llm-api-auditSummary
AI-Generated Summary