Échange de calcul au moment de l'inférence contre la robustesse face aux attaques adverses
Trading Inference-Time Compute for Adversarial Robustness
January 31, 2025
Auteurs: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI
Résumé
Nous menons des expériences sur l'impact de l'augmentation du calcul au moment de l'inférence dans les modèles de raisonnement (en particulier OpenAI o1-preview et o1-mini) sur leur résistance aux attaques adverses. Nous constatons qu'à travers diverses attaques, une augmentation du calcul au moment de l'inférence conduit à une amélioration de la robustesse. Dans de nombreux cas (avec des exceptions importantes), la proportion d'échantillons de modèle où l'attaque réussit tend vers zéro à mesure que la quantité de calcul au moment du test augmente. Nous n'effectuons pas d'entraînement adversaire pour les tâches que nous étudions, et nous augmentons le calcul au moment de l'inférence en permettant simplement aux modèles de consacrer plus de calcul au raisonnement, indépendamment de la forme de l'attaque. Nos résultats suggèrent que le calcul au moment de l'inférence a le potentiel d'améliorer la robustesse aux attaques adverses pour les Grands Modèles de Langage. Nous explorons également de nouvelles attaques dirigées contre les modèles de raisonnement, ainsi que des configurations où le calcul au moment de l'inférence ne renforce pas la fiabilité, et nous spéculons sur les raisons de ces résultats ainsi que sur les moyens de les aborder.
English
We conduct experiments on the impact of increasing inference-time compute in
reasoning models (specifically OpenAI o1-preview and o1-mini) on their
robustness to adversarial attacks. We find that across a variety of attacks,
increased inference-time compute leads to improved robustness. In many cases
(with important exceptions), the fraction of model samples where the attack
succeeds tends to zero as the amount of test-time compute grows. We perform no
adversarial training for the tasks we study, and we increase inference-time
compute by simply allowing the models to spend more compute on reasoning,
independently of the form of attack. Our results suggest that inference-time
compute has the potential to improve adversarial robustness for Large Language
Models. We also explore new attacks directed at reasoning models, as well as
settings where inference-time compute does not improve reliability, and
speculate on the reasons for these as well as ways to address them.Summary
AI-Generated Summary