Risiko unter Druck: Rechenbewusste Bewertung der adversariellen Robustheit in Sprachmodellen

Zusammenfassung

Bewertungen der adversarialen Robustheit großer Sprachmodelle (LLMs) berichten typischerweise über die Angriffserfolgsrate (ASR) unter festgelegten Abfragebudgets und behandeln implizit alle Angriffe als gleich kostenintensiv. In der Praxis kann der Rechenaufwand verschiedener Angriffsstrategien um Größenordnungen variieren. Folglich kann die ASR bei einem festen Budget den tatsächlichen Aufwand, der erforderlich ist, um ein Modell zu jailbreaken, verschleiern, was die Beurteilung erschwert, ob der Nutzen eines Angriffs seine Kosten für den Angreifer rechtfertigt. Wir schlagen ein rechenbewusstes Bewertungsframework vor, das auf dem Rechendruck basiert, gemessen in kumulativen Gleitkommaoperationen (FLOPs) als Proxy für den adversarialen Aufwand. Wir führen Risiko-Rechen-Kurven ein, die Rechenbudgets auf Angriffsrisiken abbilden, und leiten zwei Metriken ab, die den durchschnittlichen Druck zusammenfassen, der für den Erfolg eines bestimmten Angriffs erforderlich ist. Über zehn Modelle aus drei Familien und vier verschiedenen Stadien des Sprachmodelltrainings und der Alignments hinweg, bewertet mit drei Angriffsstrategien (gradientenbasiert, iterative Verfeinerung und vorlagenbasiert) an zwei Jailbreak-Robustheit-Benchmarks, stellen wir Folgendes fest: (1) Alignment-Training hat nicht-monotone Auswirkungen auf die Robustheit im Rechenraum; (2) eine Skalierung der Modellgröße verringert die Effektivität gradientenbasierter Angriffe, hat jedoch begrenzte Auswirkungen auf günstigere vorlagenbasierte Angriffe; (3) gradientenbasierte Angriffe, die an einem Surrogatmodell optimiert wurden, können auf ein separates Zielmodell übertragen werden, was eine Möglichkeit zur Reduzierung der Angreiferkosten bietet; (4) die Rechenkosten variieren um bis zu {approx}5{times} zwischen Schadenskategorien innerhalb eines einzelnen Modells; und (5) sicherheitsausgerichtetes RL erhöht die Gesamtkosten, während einige Kategorien unverhältnismäßig zugänglich bleiben. Wir veröffentlichen unser Framework, um eine rechenbewusste Risikobewertung und -evaluation zu ermöglichen.

English

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequently, ASR at a fixed budget can obscure the true effort required to jailbreak a model, thereby making it hard to determine whether an attack's cost justifies its payoff to the attacker. We propose a compute-aware evaluation framework based on computational pressure, measured in cumulative floating-point operations (FLOPs), as a proxy for adversarial effort. We introduce risk-compute curves, which map compute budgets to attack risk, and derive two metrics that summarize the average pressure required for a given attack to succeed. Across ten models spanning three families and four different stages in language model training and alignment, evaluated with three attack strategies (gradient-based, iterative refinement, and template-based) on two jailbreak robustness benchmarks, we find: (1) alignment training has non-monotonic effects on compute-space robustness; (2) scaling model size reduces gradient-based attack effectiveness but has limited impact on cheaper template-based attacks; (3) gradient-based attacks optimized on a surrogate model can transfer to a separate target model, providing a way to reduce attacker costs; (4) compute cost varies by up to {approx}5{times} across harm categories within a single model; and (5) safety-aligned RL increases aggregate cost while leaving some categories disproportionately accessible. We release our framework to enable compute-aware risk assessment and evaluation.