Riesgo bajo presión: evaluación consciente del cómputo de la robustez adversaria en modelos de lenguaje

Resumen

Las evaluaciones de robustez adversarial en modelos de lenguaje de gran escala (LLMs) suelen reportar la tasa de éxito del ataque (ASR) bajo presupuestos fijos de consultas, tratando implícitamente todos los ataques como igualmente costosos. En la práctica, el costo computacional de diferentes estrategias de ataque puede variar en órdenes de magnitud. En consecuencia, la ASR con un presupuesto fijo puede ocultar el esfuerzo real necesario para liberar un modelo, dificultando así determinar si el costo de un ataque justifica su beneficio para el atacante. Proponemos un marco de evaluación consciente del cómputo basado en la presión computacional, medida en operaciones de punto flotante (FLOPs) acumuladas, como un proxy del esfuerzo adversarial. Introducimos curvas de riesgo-cómputo, que asignan presupuestos de cómputo al riesgo de ataque, y derivamos dos métricas que resumen la presión promedio requerida para que un ataque dado tenga éxito. A través de diez modelos que abarcan tres familias y cuatro etapas diferentes en el entrenamiento y alineación de modelos de lenguaje, evaluados con tres estrategias de ataque (basadas en gradientes, refinamiento iterativo y plantillas) en dos benchmarks de robustez para liberación, encontramos: (1) el entrenamiento de alineación tiene efectos no monótonos en la robustez en el espacio de cómputo; (2) escalar el tamaño del modelo reduce la efectividad de los ataques basados en gradientes, pero tiene un impacto limitado en ataques más baratos basados en plantillas; (3) los ataques basados en gradientes optimizados en un modelo sustituto pueden transferirse a un modelo objetivo separado, proporcionando una forma de reducir los costos del atacante; (4) el costo computacional varía hasta aproximadamente 5 veces entre categorías de daño dentro de un mismo modelo; y (5) el RL alineado con seguridad aumenta el costo agregado mientras deja algunas categorías desproporcionadamente accesibles. Publicamos nuestro marco para permitir la evaluación y valoración del riesgo conscientes del cómputo.

English

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequently, ASR at a fixed budget can obscure the true effort required to jailbreak a model, thereby making it hard to determine whether an attack's cost justifies its payoff to the attacker. We propose a compute-aware evaluation framework based on computational pressure, measured in cumulative floating-point operations (FLOPs), as a proxy for adversarial effort. We introduce risk-compute curves, which map compute budgets to attack risk, and derive two metrics that summarize the average pressure required for a given attack to succeed. Across ten models spanning three families and four different stages in language model training and alignment, evaluated with three attack strategies (gradient-based, iterative refinement, and template-based) on two jailbreak robustness benchmarks, we find: (1) alignment training has non-monotonic effects on compute-space robustness; (2) scaling model size reduces gradient-based attack effectiveness but has limited impact on cheaper template-based attacks; (3) gradient-based attacks optimized on a surrogate model can transfer to a separate target model, providing a way to reduce attacker costs; (4) compute cost varies by up to {approx}5{times} across harm categories within a single model; and (5) safety-aligned RL increases aggregate cost while leaving some categories disproportionately accessible. We release our framework to enable compute-aware risk assessment and evaluation.