Торговля вычислительным временем вывода на прочность к атакам.
Trading Inference-Time Compute for Adversarial Robustness
January 31, 2025
Авторы: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI
Аннотация
Мы проводим эксперименты по изучению влияния увеличения вычислительных ресурсов во время вывода в моделях рассуждений (конкретно в OpenAI o1-preview и o1-mini) на их устойчивость к атакам. Мы обнаружили, что при различных видах атак увеличение вычислительных ресурсов во время вывода приводит к улучшению устойчивости. Во многих случаях (с важными исключениями) доля образцов модели, на которых атака успешна, стремится к нулю по мере увеличения вычислительных ресурсов во время тестирования. Мы не проводим обучение соперничеству для изучаемых задач, а увеличиваем вычислительные ресурсы во время вывода, просто позволяя моделям тратить больше времени на рассуждения, независимо от формы атаки. Наши результаты указывают на потенциал увеличения вычислительных ресурсов во время вывода для улучшения устойчивости к атакам для Больших Языковых Моделей. Мы также исследуем новые атаки, направленные на модели рассуждений, а также ситуации, где увеличение вычислительных ресурсов во время вывода не улучшает надежность, и размышляем о причинах этого, а также способах их решения.
English
We conduct experiments on the impact of increasing inference-time compute in
reasoning models (specifically OpenAI o1-preview and o1-mini) on their
robustness to adversarial attacks. We find that across a variety of attacks,
increased inference-time compute leads to improved robustness. In many cases
(with important exceptions), the fraction of model samples where the attack
succeeds tends to zero as the amount of test-time compute grows. We perform no
adversarial training for the tasks we study, and we increase inference-time
compute by simply allowing the models to spend more compute on reasoning,
independently of the form of attack. Our results suggest that inference-time
compute has the potential to improve adversarial robustness for Large Language
Models. We also explore new attacks directed at reasoning models, as well as
settings where inference-time compute does not improve reliability, and
speculate on the reasons for these as well as ways to address them.Summary
AI-Generated Summary