Une augmentation du temps de calcul lors de l'inférence améliore-t-elle réellement la robustesse ?
Does More Inference-Time Compute Really Help Robustness?
July 21, 2025
papers.authors: Tong Wu, Chong Xiang, Jiachen T. Wang, Weichen Yu, Chawin Sitawarin, Vikash Sehwag, Prateek Mittal
cs.AI
papers.abstract
Récemment, Zaremba et al. ont démontré qu'augmenter le calcul au moment de l'inférence améliore la robustesse des grands modèles de langage (LLM) propriétaires spécialisés dans le raisonnement. Dans cet article, nous montrons d'abord que des modèles open-source à plus petite échelle (par exemple, DeepSeek R1, Qwen3, Phi-reasoning) peuvent également bénéficier d'une mise à l'échelle au moment de l'inférence grâce à une simple stratégie de forçage budgétaire. Plus important encore, nous révélons et examinons de manière critique une hypothèse implicite dans les travaux antérieurs : les étapes intermédiaires du raisonnement sont cachées aux adversaires. En relâchant cette hypothèse, nous identifions un risque de sécurité majeur, intuitivement motivé et empiriquement vérifié comme une loi d'échelle inverse : si les étapes intermédiaires du raisonnement deviennent explicitement accessibles, l'augmentation du calcul au moment de l'inférence réduit systématiquement la robustesse du modèle. Enfin, nous discutons des scénarios pratiques où les modèles avec des chaînes de raisonnement cachées restent vulnérables aux attaques, tels que les modèles intégrant des outils de raisonnement et les attaques avancées d'extraction de raisonnement. Nos résultats démontrent collectivement que les avantages de robustesse liés à la mise à l'échelle au moment de l'inférence dépendent fortement du contexte d'attaque et de déploiement. Nous exhortons les praticiens à peser soigneusement ces compromis subtils avant d'appliquer la mise à l'échelle au moment de l'inférence dans des applications réelles sensibles à la sécurité.
English
Recently, Zaremba et al. demonstrated that increasing inference-time
computation improves robustness in large proprietary reasoning LLMs. In this
paper, we first show that smaller-scale, open-source models (e.g., DeepSeek R1,
Qwen3, Phi-reasoning) can also benefit from inference-time scaling using a
simple budget forcing strategy. More importantly, we reveal and critically
examine an implicit assumption in prior work: intermediate reasoning steps are
hidden from adversaries. By relaxing this assumption, we identify an important
security risk, intuitively motivated and empirically verified as an inverse
scaling law: if intermediate reasoning steps become explicitly accessible,
increased inference-time computation consistently reduces model robustness.
Finally, we discuss practical scenarios where models with hidden reasoning
chains are still vulnerable to attacks, such as models with tool-integrated
reasoning and advanced reasoning extraction attacks. Our findings collectively
demonstrate that the robustness benefits of inference-time scaling depend
heavily on the adversarial setting and deployment context. We urge
practitioners to carefully weigh these subtle trade-offs before applying
inference-time scaling in security-sensitive, real-world applications.