ChatPaper.aiChatPaper

Het verhandelen van inferentietijd berekeningen voor adversariële robuustheid.

Trading Inference-Time Compute for Adversarial Robustness

January 31, 2025
Auteurs: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI

Samenvatting

We voeren experimenten uit naar de impact van het verhogen van de rekentijd voor inferentie in redeneermodellen (specifiek OpenAI o1-preview en o1-mini) op hun robuustheid tegen aanvallen van kwaadwillende partijen. We constateren dat bij verschillende aanvallen een toename van de rekentijd voor inferentie leidt tot verbeterde robuustheid. In veel gevallen (met belangrijke uitzonderingen) neigt het percentage modelvoorbeelden waar de aanval slaagt naar nul naarmate de hoeveelheid testtijd-rekenkracht toeneemt. We voeren geen training uit voor kwaadwillende aanvallen voor de taken die we bestuderen, en we verhogen de rekentijd voor inferentie eenvoudigweg door de modellen meer rekentijd te laten besteden aan redeneren, onafhankelijk van de vorm van de aanval. Onze resultaten suggereren dat rekentijd voor inferentie het potentieel heeft om de robuustheid tegen kwaadwillende aanvallen te verbeteren voor Grote Taalmodellen. We verkennen ook nieuwe aanvallen gericht op redeneermodellen, evenals situaties waarin rekentijd voor inferentie de betrouwbaarheid niet verbetert, en speculeren over de redenen hiervoor en manieren om hiermee om te gaan.
English
We conduct experiments on the impact of increasing inference-time compute in reasoning models (specifically OpenAI o1-preview and o1-mini) on their robustness to adversarial attacks. We find that across a variety of attacks, increased inference-time compute leads to improved robustness. In many cases (with important exceptions), the fraction of model samples where the attack succeeds tends to zero as the amount of test-time compute grows. We perform no adversarial training for the tasks we study, and we increase inference-time compute by simply allowing the models to spend more compute on reasoning, independently of the form of attack. Our results suggest that inference-time compute has the potential to improve adversarial robustness for Large Language Models. We also explore new attacks directed at reasoning models, as well as settings where inference-time compute does not improve reliability, and speculate on the reasons for these as well as ways to address them.

Summary

AI-Generated Summary

PDF42February 3, 2025