Krijgt u waar u voor betaalt? Het controleren van modelvervanging in LLM-API's

Samenvatting

De opkomst van Large Language Models (LLM's) die via black-box API's worden aangeboden, brengt een aanzienlijk vertrouwensprobleem met zich mee: gebruikers betalen voor diensten op basis van geadverteerde modelcapaciteiten (bijvoorbeeld grootte, prestaties), maar aanbieders kunnen het gespecificeerde model stiekem vervangen door een goedkopere, lagere kwaliteit alternatief om operationele kosten te verlagen. Dit gebrek aan transparantie ondermijnt eerlijkheid, tast vertrouwen aan en bemoeilijkt betrouwbare benchmarking. Het detecteren van dergelijke vervangingen is moeilijk vanwege de black-box aard, waarbij de interactie meestal beperkt blijft tot input-output queries. Dit artikel formaliseert het probleem van modelvervangingsdetectie in LLM API's. We evalueren systematisch bestaande verificatietechnieken, waaronder output-gebaseerde statistische tests, benchmarkevaluaties en log probability-analyse, onder verschillende realistische aanvalsscenario's zoals modelkwantisatie, gerandomiseerde vervanging en benchmarkontduiking. Onze bevindingen onthullen de beperkingen van methoden die uitsluitend op tekstoutputs vertrouwen, vooral tegen subtiele of adaptieve aanvallen. Hoewel log probability-analyse sterkere garanties biedt wanneer deze beschikbaar is, is de toegankelijkheid ervan vaak beperkt. We sluiten af met een bespreking van de potentie van hardware-gebaseerde oplossingen zoals Trusted Execution Environments (TEE's) als een weg naar bewijsbare modelintegriteit, waarbij we de afwegingen tussen beveiliging, prestaties en adoptie door aanbieders benadrukken. Code is beschikbaar op https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

Krijgt u waar u voor betaalt? Het controleren van modelvervanging in LLM-API's

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Samenvatting

Support