Risico onder druk: rekenbewuste evaluatie van adversariële robuustheid in taalmodellen

Samenvatting

Adversariële robuustheidsevaluaties van grote taalmodellen (LLM's) rapporteren doorgaans het aanvalsuccespercentage (ASR) onder vaste querybudgetten, waarbij impliciet alle aanvallen als even duur worden beschouwd. In de praktijk kunnen de rekenkosten van verschillende aanvalsstrategieën echter met ordes van grootte variëren. Bijgevolg kan ASR bij een vast budget de werkelijke inspanning verhullen die nodig is om een model te jailbreaken, waardoor het moeilijk wordt te bepalen of de kosten van een aanval de opbrengst voor de aanvaller rechtvaardigen. Wij stellen een rekenbewust evaluatiekader voor, gebaseerd op rekenkundige druk, gemeten in cumulatieve floating-point-bewerkingen (FLOPs), als proxy voor de adversariële inspanning. We introduceren risico-rekencurves, die rekenbudgetten koppelen aan aanvalsrisico, en leiden twee metrieken af die de gemiddelde druk samenvatten die nodig is voor een bepaalde aanval om te slagen. Over tien modellen, verspreid over drie families en vier verschillende stadia in taalmodeltraining en -alignering, geëvalueerd met drie aanvalsstrategieën (gradiëntgebaseerd, iteratieve verfijning en sjabloongebaseerd) op twee benchmarks voor jailbreak-robuustheid, vinden we: (1) aligneringstraining heeft niet-monotone effecten op robuustheid in de rekenruimte; (2) het opschalen van de modelgrootte vermindert de effectiviteit van gradiëntgebaseerde aanvallen, maar heeft beperkte invloed op goedkopere sjabloongebaseerde aanvallen; (3) gradiëntgebaseerde aanvallen die zijn geoptimaliseerd op een surrogaatmodel kunnen overdragen naar een afzonderlijk doelmodel, wat een manier biedt om de aanvalskosten te verlagen; (4) de rekenkosten variëren tot ~5× tussen schadecategorieën binnen één enkel model; en (5) veiligheidsgealineerd RL verhoogt de totale kosten, maar laat sommige categorieën onevenredig toegankelijk. We stellen ons kader beschikbaar om rekenbewuste risicobeoordeling en -evaluatie mogelijk te maken.

English

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequently, ASR at a fixed budget can obscure the true effort required to jailbreak a model, thereby making it hard to determine whether an attack's cost justifies its payoff to the attacker. We propose a compute-aware evaluation framework based on computational pressure, measured in cumulative floating-point operations (FLOPs), as a proxy for adversarial effort. We introduce risk-compute curves, which map compute budgets to attack risk, and derive two metrics that summarize the average pressure required for a given attack to succeed. Across ten models spanning three families and four different stages in language model training and alignment, evaluated with three attack strategies (gradient-based, iterative refinement, and template-based) on two jailbreak robustness benchmarks, we find: (1) alignment training has non-monotonic effects on compute-space robustness; (2) scaling model size reduces gradient-based attack effectiveness but has limited impact on cheaper template-based attacks; (3) gradient-based attacks optimized on a surrogate model can transfer to a separate target model, providing a way to reduce attacker costs; (4) compute cost varies by up to {approx}5{times} across harm categories within a single model; and (5) safety-aligned RL increases aggregate cost while leaving some categories disproportionately accessible. We release our framework to enable compute-aware risk assessment and evaluation.