Intercambio de Tiempo de Inferencia por Robustez Adversarial
Trading Inference-Time Compute for Adversarial Robustness
January 31, 2025
Autores: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI
Resumen
Realizamos experimentos sobre el impacto de aumentar el cómputo en tiempo de inferencia en modelos de razonamiento (específicamente OpenAI o1-preview y o1-mini) en su robustez frente a ataques adversarios. Descubrimos que, en una variedad de ataques, un mayor cómputo en tiempo de inferencia conduce a una mayor robustez. En muchos casos (con excepciones importantes), la fracción de muestras del modelo donde el ataque tiene éxito tiende a cero a medida que crece la cantidad de cómputo en tiempo de prueba. No realizamos entrenamiento adversario para las tareas que estudiamos, y aumentamos el cómputo en tiempo de inferencia simplemente permitiendo que los modelos gasten más cómputo en razonamiento, independientemente de la forma de ataque. Nuestros resultados sugieren que el cómputo en tiempo de inferencia tiene el potencial de mejorar la robustez adversaria para Modelos de Lenguaje Grandes. También exploramos nuevos ataques dirigidos a modelos de razonamiento, así como escenarios donde el cómputo en tiempo de inferencia no mejora la confiabilidad, y especulamos sobre las razones de esto, así como formas de abordarlo.
English
We conduct experiments on the impact of increasing inference-time compute in
reasoning models (specifically OpenAI o1-preview and o1-mini) on their
robustness to adversarial attacks. We find that across a variety of attacks,
increased inference-time compute leads to improved robustness. In many cases
(with important exceptions), the fraction of model samples where the attack
succeeds tends to zero as the amount of test-time compute grows. We perform no
adversarial training for the tasks we study, and we increase inference-time
compute by simply allowing the models to spend more compute on reasoning,
independently of the form of attack. Our results suggest that inference-time
compute has the potential to improve adversarial robustness for Large Language
Models. We also explore new attacks directed at reasoning models, as well as
settings where inference-time compute does not improve reliability, and
speculate on the reasons for these as well as ways to address them.Summary
AI-Generated Summary