Você Está Obtendo o Que Paga? Auditoria de Substituição de Modelos em APIs de LLMs
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs
April 7, 2025
Autores: Will Cai, Tianneng Shi, Xuandong Zhao, Dawn Song
cs.AI
Resumo
A proliferação de Modelos de Linguagem de Grande Escala (LLMs) acessados por meio de APIs de caixa preta introduz um desafio significativo de confiança: os usuários pagam por serviços com base nas capacidades anunciadas dos modelos (por exemplo, tamanho, desempenho), mas os provedores podem substituir secretamente o modelo especificado por uma alternativa mais barata e de qualidade inferior para reduzir custos operacionais. Essa falta de transparência prejudica a justiça, corrói a confiança e complica a avaliação confiável. Detectar tais substituições é difícil devido à natureza de caixa preta, que normalmente limita a interação a consultas de entrada e saída. Este artigo formaliza o problema de detecção de substituição de modelos em APIs de LLMs. Avaliamos sistematicamente técnicas de verificação existentes, incluindo testes estatísticos baseados em saída, avaliações de benchmarks e análise de probabilidade logarítmica, sob vários cenários realistas de ataque, como quantização de modelos, substituição aleatória e evasão de benchmarks. Nossas descobertas revelam as limitações dos métodos que dependem exclusivamente de saídas de texto, especialmente contra ataques sutis ou adaptativos. Embora a análise de probabilidade logarítmica ofereça garantias mais fortes quando disponível, sua acessibilidade é frequentemente limitada. Concluímos discutindo o potencial de soluções baseadas em hardware, como Ambientes de Execução Confiável (TEEs), como um caminho para a integridade comprovável do modelo, destacando os trade-offs entre segurança, desempenho e adoção por parte dos provedores. O código está disponível em https://github.com/sunblaze-ucb/llm-api-audit.
English
The proliferation of Large Language Models (LLMs) accessed via black-box APIs
introduces a significant trust challenge: users pay for services based on
advertised model capabilities (e.g., size, performance), but providers may
covertly substitute the specified model with a cheaper, lower-quality
alternative to reduce operational costs. This lack of transparency undermines
fairness, erodes trust, and complicates reliable benchmarking. Detecting such
substitutions is difficult due to the black-box nature, typically limiting
interaction to input-output queries. This paper formalizes the problem of model
substitution detection in LLM APIs. We systematically evaluate existing
verification techniques, including output-based statistical tests, benchmark
evaluations, and log probability analysis, under various realistic attack
scenarios like model quantization, randomized substitution, and benchmark
evasion. Our findings reveal the limitations of methods relying solely on text
outputs, especially against subtle or adaptive attacks. While log probability
analysis offers stronger guarantees when available, its accessibility is often
limited. We conclude by discussing the potential of hardware-based solutions
like Trusted Execution Environments (TEEs) as a pathway towards provable model
integrity, highlighting the trade-offs between security, performance, and
provider adoption. Code is available at
https://github.com/sunblaze-ucb/llm-api-auditSummary
AI-Generated Summary