Un Maggiore Calcolo al Momento dell'Inferenza Migliora Davvero la Robustezza?

Abstract

Recentemente, Zaremba et al. hanno dimostrato che aumentare il calcolo durante l'inferenza migliora la robustezza nei grandi modelli di ragionamento LLM proprietari. In questo articolo, mostriamo innanzitutto che modelli open-source su scala ridotta (ad esempio, DeepSeek R1, Qwen3, Phi-reasoning) possono trarre vantaggio anche dallo scaling durante l'inferenza utilizzando una semplice strategia di forzatura del budget. Ancora più importante, riveliamo ed esaminiamo criticamente un'assunzione implicita nei lavori precedenti: i passaggi intermedi del ragionamento sono nascosti agli avversari. Rilassando questa assunzione, identifichiamo un importante rischio per la sicurezza, intuitivamente motivato e verificato empiricamente come una legge di scaling inversa: se i passaggi intermedi del ragionamento diventano esplicitamente accessibili, l'aumento del calcolo durante l'inferenza riduce costantemente la robustezza del modello. Infine, discutiamo scenari pratici in cui i modelli con catene di ragionamento nascoste sono ancora vulnerabili ad attacchi, come modelli con ragionamento integrato a strumenti e attacchi avanzati di estrazione del ragionamento. Le nostre scoperte dimostrano collettivamente che i benefici di robustezza dello scaling durante l'inferenza dipendono fortemente dal contesto avversario e di deployment. Esortiamo i professionisti a valutare attentamente questi sottili compromessi prima di applicare lo scaling durante l'inferenza in applicazioni real-world sensibili alla sicurezza.

English

Recently, Zaremba et al. demonstrated that increasing inference-time computation improves robustness in large proprietary reasoning LLMs. In this paper, we first show that smaller-scale, open-source models (e.g., DeepSeek R1, Qwen3, Phi-reasoning) can also benefit from inference-time scaling using a simple budget forcing strategy. More importantly, we reveal and critically examine an implicit assumption in prior work: intermediate reasoning steps are hidden from adversaries. By relaxing this assumption, we identify an important security risk, intuitively motivated and empirically verified as an inverse scaling law: if intermediate reasoning steps become explicitly accessible, increased inference-time computation consistently reduces model robustness. Finally, we discuss practical scenarios where models with hidden reasoning chains are still vulnerable to attacks, such as models with tool-integrated reasoning and advanced reasoning extraction attacks. Our findings collectively demonstrate that the robustness benefits of inference-time scaling depend heavily on the adversarial setting and deployment context. We urge practitioners to carefully weigh these subtle trade-offs before applying inference-time scaling in security-sensitive, real-world applications.

Un Maggiore Calcolo al Momento dell'Inferenza Migliora Davvero la Robustezza?

Does More Inference-Time Compute Really Help Robustness?

Abstract

Support