Risque sous pression : Évaluation tenant compte du calcul de la robustesse adversarial dans les modèles de langage

Résumé

Les évaluations de la robustesse adversarial des grands modèles de langage (LLM) rapportent généralement le taux de réussite des attaques (ASR) sous des budgets de requêtes fixes, en traitant implicitement toutes les attaques comme étant également coûteuses. En pratique, le coût computationnel des différentes stratégies d'attaque peut varier de plusieurs ordres de grandeur. Par conséquent, l'ASR à budget fixe peut masquer l'effort réel nécessaire pour déjouer un modèle, rendant ainsi difficile de déterminer si le coût d'une attaque justifie son gain pour l'attaquant. Nous proposons un cadre d'évaluation tenant compte du coût de calcul, basé sur la pression computationnelle mesurée en opérations en virgule flottante cumulées (FLOPs), comme proxy de l'effort adversarial. Nous introduisons des courbes risque-calcul, qui font correspondre les budgets de calcul au risque d'attaque, et dérivons deux métriques qui résument la pression moyenne nécessaire pour qu'une attaque donnée réussisse. Sur dix modèles couvrant trois familles et quatre étapes différentes de l'entraînement et de l'alignement des modèles de langage, évalués avec trois stratégies d'attaque (basée sur le gradient, raffinement itératif et basée sur un modèle) sur deux benchmarks de robustesse au jailbreak, nous constatons : (1) l'entraînement à l'alignement a des effets non monotones sur la robustesse dans l'espace de calcul ; (2) l'augmentation de la taille du modèle réduit l'efficacité des attaques basées sur le gradient mais a un impact limité sur les attaques moins coûteuses basées sur un modèle ; (3) les attaques basées sur le gradient optimisées sur un modèle substitut peuvent être transférées à un modèle cible distinct, offrant un moyen de réduire les coûts pour l'attaquant ; (4) le coût de calcul varie jusqu'à environ 5 fois entre les catégories de préjudice au sein d'un même modèle ; et (5) le RL aligné sur la sécurité augmente le coût global tout en laissant certaines catégories disproportionnellement accessibles. Nous publions notre cadre pour permettre une évaluation et une estimation des risques tenant compte du calcul.

English

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequently, ASR at a fixed budget can obscure the true effort required to jailbreak a model, thereby making it hard to determine whether an attack's cost justifies its payoff to the attacker. We propose a compute-aware evaluation framework based on computational pressure, measured in cumulative floating-point operations (FLOPs), as a proxy for adversarial effort. We introduce risk-compute curves, which map compute budgets to attack risk, and derive two metrics that summarize the average pressure required for a given attack to succeed. Across ten models spanning three families and four different stages in language model training and alignment, evaluated with three attack strategies (gradient-based, iterative refinement, and template-based) on two jailbreak robustness benchmarks, we find: (1) alignment training has non-monotonic effects on compute-space robustness; (2) scaling model size reduces gradient-based attack effectiveness but has limited impact on cheaper template-based attacks; (3) gradient-based attacks optimized on a surrogate model can transfer to a separate target model, providing a way to reduce attacker costs; (4) compute cost varies by up to {approx}5{times} across harm categories within a single model; and (5) safety-aligned RL increases aggregate cost while leaving some categories disproportionately accessible. We release our framework to enable compute-aware risk assessment and evaluation.