Risco sob Pressão: Avaliação com Consciência Computacional da Robustez Adversarial em Modelos de Linguagem

Resumo

Avaliações de robustez adversarial de grandes modelos de linguagem (LLMs) normalmente relatam a taxa de sucesso do ataque (ASR) sob orçamentos fixos de consultas, tratando implicitamente todos os ataques como igualmente custosos. Na prática, o custo computacional de diferentes estratégias de ataque pode variar por ordens de grandeza. Consequentemente, a ASR em um orçamento fixo pode obscurecer o esforço real necessário para quebrar as restrições de um modelo, dificultando a determinação de se o custo de um ataque justifica seu retorno para o atacante. Propomos uma estrutura de avaliação ciente de computação baseada em pressão computacional, medida em operações de ponto flutuante acumuladas (FLOPs), como uma proxy para o esforço adversarial. Introduzimos curvas de risco-computação, que mapeiam orçamentos computacionais para risco de ataque, e derivamos duas métricas que resumem a pressão média necessária para um determinado ataque ter sucesso. Em dez modelos abrangendo três famílias e quatro estágios diferentes no treinamento e alinhamento de modelos de linguagem, avaliados com três estratégias de ataque (baseado em gradiente, refinamento iterativo e baseado em templates) em dois benchmarks de robustez de jailbreak, descobrimos: (1) o treinamento de alinhamento tem efeitos não monotônicos na robustez em espaço computacional; (2) aumentar o tamanho do modelo reduz a eficácia de ataques baseados em gradiente, mas tem impacto limitado em ataques baseados em templates mais baratos; (3) ataques baseados em gradiente otimizados em um modelo substituto podem transferir para um modelo alvo separado, fornecendo uma maneira de reduzir os custos do atacante; (4) o custo computacional varia em até {approx}5× entre categorias de dano dentro de um único modelo; e (5) o RL alinhado à segurança aumenta o custo agregado, enquanto deixa algumas categorias desproporcionalmente acessíveis. Disponibilizamos nossa estrutura para permitir avaliação e análise de risco ciente de computação.

English

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequently, ASR at a fixed budget can obscure the true effort required to jailbreak a model, thereby making it hard to determine whether an attack's cost justifies its payoff to the attacker. We propose a compute-aware evaluation framework based on computational pressure, measured in cumulative floating-point operations (FLOPs), as a proxy for adversarial effort. We introduce risk-compute curves, which map compute budgets to attack risk, and derive two metrics that summarize the average pressure required for a given attack to succeed. Across ten models spanning three families and four different stages in language model training and alignment, evaluated with three attack strategies (gradient-based, iterative refinement, and template-based) on two jailbreak robustness benchmarks, we find: (1) alignment training has non-monotonic effects on compute-space robustness; (2) scaling model size reduces gradient-based attack effectiveness but has limited impact on cheaper template-based attacks; (3) gradient-based attacks optimized on a surrogate model can transfer to a separate target model, providing a way to reduce attacker costs; (4) compute cost varies by up to {approx}5{times} across harm categories within a single model; and (5) safety-aligned RL increases aggregate cost while leaving some categories disproportionately accessible. We release our framework to enable compute-aware risk assessment and evaluation.