Получаете ли вы то, за что платите? Проверка подмены моделей в API крупных языковых моделей
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs
April 7, 2025
Авторы: Will Cai, Tianneng Shi, Xuandong Zhao, Dawn Song
cs.AI
Аннотация
Распространение крупных языковых моделей (LLM), доступных через черные ящики API, создает серьезную проблему доверия: пользователи платят за услуги, основываясь на заявленных возможностях модели (например, размер, производительность), но провайдеры могут скрытно заменять указанную модель более дешевой и менее качественной альтернативой для снижения операционных затрат. Такая непрозрачность подрывает справедливость, снижает доверие и усложняет надежное бенчмаркинг. Обнаружение подобных замен затруднено из-за черного ящика, который обычно ограничивает взаимодействие запросами ввода-вывода. В данной работе формализуется проблема обнаружения замены моделей в API LLM. Мы систематически оцениваем существующие методы проверки, включая статистические тесты на основе выходных данных, бенчмарк-оценки и анализ логарифмических вероятностей, в различных реалистичных сценариях атак, таких как квантование моделей, случайная замена и уклонение от бенчмарков. Наши результаты выявляют ограничения методов, полагающихся исключительно на текстовые выходы, особенно против тонких или адаптивных атак. Хотя анализ логарифмических вероятностей предлагает более надежные гарантии, когда доступен, его доступность часто ограничена. В заключение обсуждается потенциал аппаратных решений, таких как доверенные среды выполнения (TEE), как путь к доказуемой целостности моделей, с акцентом на компромиссы между безопасностью, производительностью и внедрением провайдерами. Код доступен по адресу https://github.com/sunblaze-ucb/llm-api-audit.
English
The proliferation of Large Language Models (LLMs) accessed via black-box APIs
introduces a significant trust challenge: users pay for services based on
advertised model capabilities (e.g., size, performance), but providers may
covertly substitute the specified model with a cheaper, lower-quality
alternative to reduce operational costs. This lack of transparency undermines
fairness, erodes trust, and complicates reliable benchmarking. Detecting such
substitutions is difficult due to the black-box nature, typically limiting
interaction to input-output queries. This paper formalizes the problem of model
substitution detection in LLM APIs. We systematically evaluate existing
verification techniques, including output-based statistical tests, benchmark
evaluations, and log probability analysis, under various realistic attack
scenarios like model quantization, randomized substitution, and benchmark
evasion. Our findings reveal the limitations of methods relying solely on text
outputs, especially against subtle or adaptive attacks. While log probability
analysis offers stronger guarantees when available, its accessibility is often
limited. We conclude by discussing the potential of hardware-based solutions
like Trusted Execution Environments (TEEs) as a pathway towards provable model
integrity, highlighting the trade-offs between security, performance, and
provider adoption. Code is available at
https://github.com/sunblaze-ucb/llm-api-auditSummary
AI-Generated Summary