Получаете ли вы то, за что платите? Проверка подмены моделей в API крупных языковых моделей

Аннотация

Распространение крупных языковых моделей (LLM), доступных через черные ящики API, создает серьезную проблему доверия: пользователи платят за услуги, основываясь на заявленных возможностях модели (например, размер, производительность), но провайдеры могут скрытно заменять указанную модель более дешевой и менее качественной альтернативой для снижения операционных затрат. Такая непрозрачность подрывает справедливость, снижает доверие и усложняет надежное бенчмаркинг. Обнаружение подобных замен затруднено из-за черного ящика, который обычно ограничивает взаимодействие запросами ввода-вывода. В данной работе формализуется проблема обнаружения замены моделей в API LLM. Мы систематически оцениваем существующие методы проверки, включая статистические тесты на основе выходных данных, бенчмарк-оценки и анализ логарифмических вероятностей, в различных реалистичных сценариях атак, таких как квантование моделей, случайная замена и уклонение от бенчмарков. Наши результаты выявляют ограничения методов, полагающихся исключительно на текстовые выходы, особенно против тонких или адаптивных атак. Хотя анализ логарифмических вероятностей предлагает более надежные гарантии, когда доступен, его доступность часто ограничена. В заключение обсуждается потенциал аппаратных решений, таких как доверенные среды выполнения (TEE), как путь к доказуемой целостности моделей, с акцентом на компромиссы между безопасностью, производительностью и внедрением провайдерами. Код доступен по адресу https://github.com/sunblaze-ucb/llm-api-audit.

English

The proliferation of Large Language Models (LLMs) accessed via black-box APIs introduces a significant trust challenge: users pay for services based on advertised model capabilities (e.g., size, performance), but providers may covertly substitute the specified model with a cheaper, lower-quality alternative to reduce operational costs. This lack of transparency undermines fairness, erodes trust, and complicates reliable benchmarking. Detecting such substitutions is difficult due to the black-box nature, typically limiting interaction to input-output queries. This paper formalizes the problem of model substitution detection in LLM APIs. We systematically evaluate existing verification techniques, including output-based statistical tests, benchmark evaluations, and log probability analysis, under various realistic attack scenarios like model quantization, randomized substitution, and benchmark evasion. Our findings reveal the limitations of methods relying solely on text outputs, especially against subtle or adaptive attacks. While log probability analysis offers stronger guarantees when available, its accessibility is often limited. We conclude by discussing the potential of hardware-based solutions like Trusted Execution Environments (TEEs) as a pathway towards provable model integrity, highlighting the trade-offs between security, performance, and provider adoption. Code is available at https://github.com/sunblaze-ucb/llm-api-audit

Получаете ли вы то, за что платите? Проверка подмены моделей в API крупных языковых моделей

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Аннотация

Support