Você Está Obtendo o Que Paga? Auditoria de Substituição de Modelos em APIs de LLMs

Resumo

A proliferação de Modelos de Linguagem de Grande Escala (LLMs) acessados por meio de APIs de caixa preta introduz um desafio significativo de confiança: os usuários pagam por serviços com base nas capacidades anunciadas dos modelos (por exemplo, tamanho, desempenho), mas os provedores podem substituir secretamente o modelo especificado por uma alternativa mais barata e de qualidade inferior para reduzir custos operacionais. Essa falta de transparência prejudica a justiça, corrói a confiança e complica a avaliação confiável. Detectar tais substituições é difícil devido à natureza de caixa preta, que normalmente limita a interação a consultas de entrada e saída. Este artigo formaliza o problema de detecção de substituição de modelos em APIs de LLMs. Avaliamos sistematicamente técnicas de verificação existentes, incluindo testes estatísticos baseados em saída, avaliações de benchmarks e análise de probabilidade logarítmica, sob vários cenários realistas de ataque, como quantização de modelos, substituição aleatória e evasão de benchmarks. Nossas descobertas revelam as limitações dos métodos que dependem exclusivamente de saídas de texto, especialmente contra ataques sutis ou adaptativos. Embora a análise de probabilidade logarítmica ofereça garantias mais fortes quando disponível, sua acessibilidade é frequentemente limitada. Concluímos discutindo o potencial de soluções baseadas em hardware, como Ambientes de Execução Confiável (TEEs), como um caminho para a integridade comprovável do modelo, destacando os trade-offs entre segurança, desempenho e adoção por parte dos provedores. O código está disponível em https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

Você Está Obtendo o Que Paga? Auditoria de Substituição de Modelos em APIs de LLMs

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Resumo

Summary

Support

Support