ChatPaper.aiChatPaper

Saffron-1: Verso un Paradigma di Scalabilità Inferenziale per la Garanzia della Sicurezza dei Modelli Linguistici di Grande Dimensione

Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

June 6, 2025
Autori: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
cs.AI

Abstract

La ricerca esistente sull'assicurazione della sicurezza si è concentrata principalmente sull'allineamento durante la fase di addestramento per instillare comportamenti sicuri nei LLM. Tuttavia, studi recenti hanno evidenziato la vulnerabilità di questi metodi a diversi attacchi di jailbreak. Parallelamente, il scaling dell'inferenza ha significativamente migliorato le capacità di ragionamento dei LLM, ma rimane inesplorato nel contesto dell'assicurazione della sicurezza. Colmando questa lacuna, il nostro lavoro pionieristico applica il scaling dell'inferenza per una sicurezza robusta ed efficace dei LLM contro minacce emergenti. Riveliamo che le tecniche convenzionali di scaling dell'inferenza, nonostante il loro successo nei compiti di ragionamento, si comportano male nei contesti di sicurezza, persino inferiori a approcci di base come il Best-of-N Sampling. Attribuiamo questa inefficienza a una nuova sfida identificata, il dilemma esplorazione-efficienza, che deriva dall'elevato overhead computazionale associato alle frequenti valutazioni del modello di ricompensa del processo (PRM). Per superare questo dilemma, proponiamo SAFFRON, un nuovo paradigma di scaling dell'inferenza specificamente progettato per l'assicurazione della sicurezza. Al centro del nostro approccio c'è l'introduzione di un modello di ricompensa multiforcazione (MRM) che riduce significativamente il numero di valutazioni del modello di ricompensa richieste. Per rendere operativo questo paradigma, proponiamo ulteriormente: (i) un obiettivo di addestramento con supervisione parziale per l'MRM, (ii) un vincolo di esplorazione conservativa per prevenire esplorazioni fuori distribuzione, e (iii) una strategia di caching chiave-valore basata su Trie che facilita la condivisione della cache tra sequenze durante la ricerca ad albero. Esperimenti estesi validano l'efficacia del nostro metodo. Inoltre, rilasciamo pubblicamente il nostro modello di ricompensa multiforcazione addestrato (Saffron-1) e il dataset di ricompensa di sicurezza a livello di token (Safety4M) per accelerare la ricerca futura sulla sicurezza dei LLM. Il nostro codice, modello e dati sono pubblicamente disponibili su https://github.com/q-rz/saffron, e la nostra homepage del progetto è su https://q-rz.github.io/p/saffron.
English
Existing safety assurance research has primarily focused on training-phase alignment to instill safe behaviors into LLMs. However, recent studies have exposed these methods' susceptibility to diverse jailbreak attacks. Concurrently, inference scaling has significantly advanced LLM reasoning capabilities but remains unexplored in the context of safety assurance. Addressing this gap, our work pioneers inference scaling for robust and effective LLM safety against emerging threats. We reveal that conventional inference scaling techniques, despite their success in reasoning tasks, perform poorly in safety contexts, even falling short of basic approaches like Best-of-N Sampling. We attribute this inefficiency to a newly identified challenge, the exploration--efficiency dilemma, arising from the high computational overhead associated with frequent process reward model (PRM) evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference scaling paradigm tailored explicitly for safety assurance. Central to our approach is the introduction of a multifurcation reward model (MRM) that significantly reduces the required number of reward model evaluations. To operationalize this paradigm, we further propose: (i) a partial supervision training objective for MRM, (ii) a conservative exploration constraint to prevent out-of-distribution explorations, and (iii) a Trie-based key--value caching strategy that facilitates cache sharing across sequences during tree search. Extensive experiments validate the effectiveness of our method. Additionally, we publicly release our trained multifurcation reward model (Saffron-1) and the accompanying token-level safety reward dataset (Safety4M) to accelerate future research in LLM safety. Our code, model, and data are publicly available at https://github.com/q-rz/saffron , and our project homepage is at https://q-rz.github.io/p/saffron .
PDF692June 10, 2025