Handel von Inferenzzeit-Berechnungen für adversarielle Robustheit
Trading Inference-Time Compute for Adversarial Robustness
January 31, 2025
Autoren: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI
Zusammenfassung
Wir führen Experimente zum Einfluss der Erhöhung der Inferenzzeit-Berechnung in
Begründungsmodellen (speziell OpenAI o1-preview und o1-mini) auf deren
Robustheit gegenüber adversen Angriffen durch. Wir stellen fest, dass bei einer Vielzahl von Angriffen
eine erhöhte Inferenzzeit-Berechnung zu einer verbesserten Robustheit führt. In vielen Fällen
(mit wichtigen Ausnahmen) neigt der Anteil der Modellproben, bei denen der Angriff
erfolgreich ist, gegen null, je mehr Testzeit-Berechnung erfolgt. Wir führen keine
adversen Schulungen für die Aufgaben durch, die wir untersuchen, und erhöhen die Inferenzzeit-Berechnung, indem wir den Modellen einfach erlauben, mehr Berechnungen für das Argumentieren zu verwenden,
unabhängig von der Angriffsform. Unsere Ergebnisse legen nahe, dass die Inferenzzeit-Berechnung das Potenzial hat, die adversäre Robustheit von großen Sprachmodellen zu verbessern. Wir untersuchen auch neue Angriffe, die auf Begründungsmodelle abzielen, sowie
Einstellungen, in denen die Inferenzzeit-Berechnung die Zuverlässigkeit nicht verbessert, und
spekulieren über die Gründe dafür sowie Möglichkeiten, ihnen zu begegnen.
English
We conduct experiments on the impact of increasing inference-time compute in
reasoning models (specifically OpenAI o1-preview and o1-mini) on their
robustness to adversarial attacks. We find that across a variety of attacks,
increased inference-time compute leads to improved robustness. In many cases
(with important exceptions), the fraction of model samples where the attack
succeeds tends to zero as the amount of test-time compute grows. We perform no
adversarial training for the tasks we study, and we increase inference-time
compute by simply allowing the models to spend more compute on reasoning,
independently of the form of attack. Our results suggest that inference-time
compute has the potential to improve adversarial robustness for Large Language
Models. We also explore new attacks directed at reasoning models, as well as
settings where inference-time compute does not improve reliability, and
speculate on the reasons for these as well as ways to address them.Summary
AI-Generated Summary