¿Estás obteniendo lo que pagas? Auditoría de la sustitución de modelos en APIs de LLM

Resumen

La proliferación de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) accesibles a través de APIs de caja negra introduce un desafío significativo en cuanto a la confianza: los usuarios pagan por servicios basados en las capacidades anunciadas del modelo (por ejemplo, tamaño, rendimiento), pero los proveedores podrían sustituir de manera encubierta el modelo especificado por una alternativa más económica y de menor calidad para reducir costos operativos. Esta falta de transparencia socava la equidad, erosiona la confianza y complica la evaluación confiable de los modelos. Detectar tales sustituciones es difícil debido a la naturaleza de caja negra, que generalmente limita la interacción a consultas de entrada-salida. Este artículo formaliza el problema de la detección de sustituciones de modelos en APIs de LLMs. Evaluamos sistemáticamente las técnicas de verificación existentes, incluyendo pruebas estadísticas basadas en salidas, evaluaciones de referencia y análisis de probabilidades logarítmicas, bajo diversos escenarios de ataque realistas como la cuantización de modelos, sustitución aleatoria y evasión de evaluaciones de referencia. Nuestros hallazgos revelan las limitaciones de los métodos que dependen únicamente de las salidas de texto, especialmente frente a ataques sutiles o adaptativos. Si bien el análisis de probabilidades logarítmicas ofrece garantías más sólidas cuando está disponible, su accesibilidad suele ser limitada. Concluimos discutiendo el potencial de soluciones basadas en hardware, como los Entornos de Ejecución Confiables (TEEs, por sus siglas en inglés), como una vía hacia la integridad probada de los modelos, destacando las compensaciones entre seguridad, rendimiento y adopción por parte de los proveedores. El código está disponible en https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

¿Estás obteniendo lo que pagas? Auditoría de la sustitución de modelos en APIs de LLM

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Resumen

Support