Scambio di tempo di inferenza computazionale per robustezza avversaria
Trading Inference-Time Compute for Adversarial Robustness
January 31, 2025
Autori: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI
Abstract
Abbiamo condotto esperimenti sull'impatto dell'aumento del calcolo al tempo di inferenza nei modelli di ragionamento (in particolare OpenAI o1-preview e o1-mini) sulla loro robustezza agli attacchi avversari. Abbiamo riscontrato che, attraverso una varietà di attacchi, un aumento del calcolo al tempo di inferenza porta a una maggiore robustezza. In molti casi (con importanti eccezioni), la percentuale di campioni del modello in cui l'attacco riesce tende a zero all'aumentare della quantità di calcolo al tempo di test. Non eseguiamo addestramento avversario per i compiti che studiamo e aumentiamo il calcolo al tempo di inferenza semplicemente consentendo ai modelli di utilizzare più calcolo per il ragionamento, indipendentemente dalla forma di attacco. I nostri risultati suggeriscono che il calcolo al tempo di inferenza ha il potenziale per migliorare la robustezza avversaria per i Grandi Modelli Linguistici. Esploriamo anche nuovi attacchi diretti ai modelli di ragionamento, nonché contesti in cui il calcolo al tempo di inferenza non migliora l'affidabilità, e speculiamo sulle ragioni di ciò e sui modi per affrontarle.
English
We conduct experiments on the impact of increasing inference-time compute in
reasoning models (specifically OpenAI o1-preview and o1-mini) on their
robustness to adversarial attacks. We find that across a variety of attacks,
increased inference-time compute leads to improved robustness. In many cases
(with important exceptions), the fraction of model samples where the attack
succeeds tends to zero as the amount of test-time compute grows. We perform no
adversarial training for the tasks we study, and we increase inference-time
compute by simply allowing the models to spend more compute on reasoning,
independently of the form of attack. Our results suggest that inference-time
compute has the potential to improve adversarial robustness for Large Language
Models. We also explore new attacks directed at reasoning models, as well as
settings where inference-time compute does not improve reliability, and
speculate on the reasons for these as well as ways to address them.Summary
AI-Generated Summary