Un Maggiore Calcolo al Momento dell'Inferenza Migliora Davvero la Robustezza?
Does More Inference-Time Compute Really Help Robustness?
July 21, 2025
Autori: Tong Wu, Chong Xiang, Jiachen T. Wang, Weichen Yu, Chawin Sitawarin, Vikash Sehwag, Prateek Mittal
cs.AI
Abstract
Recentemente, Zaremba et al. hanno dimostrato che aumentare il calcolo durante l'inferenza migliora la robustezza nei grandi modelli di ragionamento LLM proprietari. In questo articolo, mostriamo innanzitutto che modelli open-source su scala ridotta (ad esempio, DeepSeek R1, Qwen3, Phi-reasoning) possono trarre vantaggio anche dallo scaling durante l'inferenza utilizzando una semplice strategia di forzatura del budget. Ancora più importante, riveliamo ed esaminiamo criticamente un'assunzione implicita nei lavori precedenti: i passaggi intermedi del ragionamento sono nascosti agli avversari. Rilassando questa assunzione, identifichiamo un importante rischio per la sicurezza, intuitivamente motivato e verificato empiricamente come una legge di scaling inversa: se i passaggi intermedi del ragionamento diventano esplicitamente accessibili, l'aumento del calcolo durante l'inferenza riduce costantemente la robustezza del modello. Infine, discutiamo scenari pratici in cui i modelli con catene di ragionamento nascoste sono ancora vulnerabili ad attacchi, come modelli con ragionamento integrato a strumenti e attacchi avanzati di estrazione del ragionamento. Le nostre scoperte dimostrano collettivamente che i benefici di robustezza dello scaling durante l'inferenza dipendono fortemente dal contesto avversario e di deployment. Esortiamo i professionisti a valutare attentamente questi sottili compromessi prima di applicare lo scaling durante l'inferenza in applicazioni real-world sensibili alla sicurezza.
English
Recently, Zaremba et al. demonstrated that increasing inference-time
computation improves robustness in large proprietary reasoning LLMs. In this
paper, we first show that smaller-scale, open-source models (e.g., DeepSeek R1,
Qwen3, Phi-reasoning) can also benefit from inference-time scaling using a
simple budget forcing strategy. More importantly, we reveal and critically
examine an implicit assumption in prior work: intermediate reasoning steps are
hidden from adversaries. By relaxing this assumption, we identify an important
security risk, intuitively motivated and empirically verified as an inverse
scaling law: if intermediate reasoning steps become explicitly accessible,
increased inference-time computation consistently reduces model robustness.
Finally, we discuss practical scenarios where models with hidden reasoning
chains are still vulnerable to attacks, such as models with tool-integrated
reasoning and advanced reasoning extraction attacks. Our findings collectively
demonstrate that the robustness benefits of inference-time scaling depend
heavily on the adversarial setting and deployment context. We urge
practitioners to carefully weigh these subtle trade-offs before applying
inference-time scaling in security-sensitive, real-world applications.