Obtenez-vous ce pour quoi vous payez ? Audit de la substitution de modèles dans les API de LLM

papers.abstract

La prolifération des modèles de langage de grande taille (LLMs) accessibles via des API en boîte noire introduit un défi majeur en matière de confiance : les utilisateurs paient pour des services basés sur les capacités annoncées des modèles (par exemple, la taille, les performances), mais les fournisseurs peuvent substituer secrètement le modèle spécifié par une alternative moins chère et de moindre qualité pour réduire les coûts opérationnels. Ce manque de transparence compromet l'équité, érode la confiance et complique l'évaluation fiable. Détecter de telles substitutions est difficile en raison de la nature en boîte noire, limitant généralement l'interaction à des requêtes entrée-sortie. Cet article formalise le problème de la détection de substitution de modèles dans les API de LLMs. Nous évaluons systématiquement les techniques de vérification existantes, y compris les tests statistiques basés sur les sorties, les évaluations de référence et l'analyse des probabilités logarithmiques, sous divers scénarios d'attaque réalistes comme la quantification de modèles, la substitution aléatoire et l'évasion des benchmarks. Nos résultats révèlent les limites des méthodes reposant uniquement sur les sorties textuelles, en particulier contre des attaques subtiles ou adaptatives. Bien que l'analyse des probabilités logarithmiques offre des garanties plus solides lorsqu'elle est disponible, son accessibilité est souvent limitée. Nous concluons en discutant du potentiel des solutions matérielles comme les environnements d'exécution de confiance (TEEs) comme voie vers l'intégrité prouvable des modèles, en mettant en lumière les compromis entre sécurité, performance et adoption par les fournisseurs. Le code est disponible à l'adresse https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

Obtenez-vous ce pour quoi vous payez ? Audit de la substitution de modèles dans les API de LLM

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

papers.abstract

Support