ChatPaper.aiChatPaper

Negociando Tempo de Inferência por Robustez Adversarial

Trading Inference-Time Compute for Adversarial Robustness

January 31, 2025
Autores: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI

Resumo

Realizamos experimentos sobre o impacto do aumento do tempo de inferência computacional em modelos de raciocínio (especificamente OpenAI o1-preview e o1-mini) em sua robustez a ataques adversariais. Descobrimos que, em uma variedade de ataques, o aumento do tempo de inferência computacional resulta em uma maior robustez. Em muitos casos (com exceções importantes), a fração de amostras do modelo em que o ataque tem sucesso tende a zero à medida que a quantidade de tempo de computação de teste aumenta. Não realizamos treinamento adversarial para as tarefas que estudamos e aumentamos o tempo de inferência computacional simplesmente permitindo que os modelos gastem mais tempo de computação no raciocínio, independentemente da forma de ataque. Nossos resultados sugerem que o tempo de inferência computacional tem o potencial de melhorar a robustez adversarial para Modelos de Linguagem Grandes. Também exploramos novos ataques direcionados a modelos de raciocínio, bem como configurações em que o tempo de inferência computacional não melhora a confiabilidade, e especulamos sobre as razões para isso, bem como maneiras de abordá-las.
English
We conduct experiments on the impact of increasing inference-time compute in reasoning models (specifically OpenAI o1-preview and o1-mini) on their robustness to adversarial attacks. We find that across a variety of attacks, increased inference-time compute leads to improved robustness. In many cases (with important exceptions), the fraction of model samples where the attack succeeds tends to zero as the amount of test-time compute grows. We perform no adversarial training for the tasks we study, and we increase inference-time compute by simply allowing the models to spend more compute on reasoning, independently of the form of attack. Our results suggest that inference-time compute has the potential to improve adversarial robustness for Large Language Models. We also explore new attacks directed at reasoning models, as well as settings where inference-time compute does not improve reliability, and speculate on the reasons for these as well as ways to address them.

Summary

AI-Generated Summary

PDF42February 3, 2025