Риск под давлением: оценка устойчивости языковых моделей к состязательным атакам с учетом вычислительных ресурсов

Аннотация

Оценки состязательной устойчивости больших языковых моделей (LLM) обычно сообщают коэффициент успешности атак (ASR) при фиксированном бюджете запросов, неявно считая все атаки одинаково затратными. На практике вычислительная стоимость различных стратегий атак может различаться на порядки величины. Следовательно, ASR при фиксированном бюджете может скрывать реальные усилия, необходимые для взлома модели, что затрудняет определение того, оправдывает ли стоимость атаки ее выгоду для атакующего. Мы предлагаем фреймворк оценки, учитывающий вычислительные затраты, основанный на вычислительном давлении, измеряемом в совокупных операциях с плавающей запятой (FLOPs), в качестве прокси для состязательных усилий. Мы вводим кривые «риск-вычисления», которые сопоставляют вычислительные бюджеты с риском атаки, и выводим две метрики, обобщающие среднее давление, необходимое для успеха данной атаки. На десяти моделях, охватывающих три семейства и четыре различных этапа обучения и согласования языковых моделей, оцененных с использованием трех стратегий атак (градиентные, итеративное уточнение и шаблонные) на двух тестах устойчивости к джейлбрейку, мы обнаружили: (1) обучение согласованию оказывает немонотонное влияние на устойчивость в пространстве вычислений; (2) увеличение размера модели снижает эффективность градиентных атак, но оказывает ограниченное влияние на более дешевые шаблонные атаки; (3) градиентные атаки, оптимизированные на суррогатной модели, могут переноситься на отдельную целевую модель, предоставляя способ снижения затрат атакующего; (4) вычислительные затраты варьируются примерно в 5 раз в зависимости от категорий вреда в рамках одной модели; (5) обучение с подкреплением с согласованием безопасности увеличивает совокупные затраты, оставляя некоторые категории непропорционально доступными. Мы публикуем наш фреймворк, чтобы обеспечить оценку риска и оценивание, учитывающие вычислительные затраты.

English

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequently, ASR at a fixed budget can obscure the true effort required to jailbreak a model, thereby making it hard to determine whether an attack's cost justifies its payoff to the attacker. We propose a compute-aware evaluation framework based on computational pressure, measured in cumulative floating-point operations (FLOPs), as a proxy for adversarial effort. We introduce risk-compute curves, which map compute budgets to attack risk, and derive two metrics that summarize the average pressure required for a given attack to succeed. Across ten models spanning three families and four different stages in language model training and alignment, evaluated with three attack strategies (gradient-based, iterative refinement, and template-based) on two jailbreak robustness benchmarks, we find: (1) alignment training has non-monotonic effects on compute-space robustness; (2) scaling model size reduces gradient-based attack effectiveness but has limited impact on cheaper template-based attacks; (3) gradient-based attacks optimized on a surrogate model can transfer to a separate target model, providing a way to reduce attacker costs; (4) compute cost varies by up to {approx}5{times} across harm categories within a single model; and (5) safety-aligned RL increases aggregate cost while leaving some categories disproportionately accessible. We release our framework to enable compute-aware risk assessment and evaluation.