ChatPaper.aiChatPaper

Saffron-1 : Vers un paradigme de mise à l'échelle de l'inférence pour la garantie de sécurité des LLM

Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

June 6, 2025
Auteurs: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
cs.AI

Résumé

Les recherches existantes en matière de garantie de sécurité se sont principalement concentrées sur l'alignement pendant la phase d'entraînement pour inculquer des comportements sûrs aux LLM. Cependant, des études récentes ont révélé la vulnérabilité de ces méthodes face à diverses attaques de contournement (jailbreak). Parallèlement, le scaling à l'inférence a considérablement amélioré les capacités de raisonnement des LLM, mais reste inexploré dans le contexte de la garantie de sécurité. Pour combler cette lacune, notre travail innove en appliquant le scaling à l'inférence pour renforcer la sécurité des LLM face aux menaces émergentes. Nous montrons que les techniques conventionnelles de scaling à l'inférence, bien que performantes dans les tâches de raisonnement, sont peu efficaces dans les contextes de sécurité, ne surpassant même pas des approches basiques comme l'échantillonnage Best-of-N. Nous attribuons cette inefficacité à un nouveau défi identifié, le dilemme exploration-efficacité, résultant de la surcharge computationnelle liée aux évaluations fréquentes du modèle de récompense de processus (PRM). Pour surmonter ce dilemme, nous proposons SAFFRON, un nouveau paradigme de scaling à l'inférence spécifiquement conçu pour la garantie de sécurité. Au cœur de notre approche se trouve l'introduction d'un modèle de récompense multifurcation (MRM) qui réduit considérablement le nombre d'évaluations du modèle de récompense nécessaires. Pour opérationnaliser ce paradigme, nous proposons en outre : (i) un objectif d'entraînement à supervision partielle pour le MRM, (ii) une contrainte d'exploration conservatrice pour prévenir les explorations hors distribution, et (iii) une stratégie de mise en cache basée sur un Trie qui facilite le partage du cache entre les séquences lors de la recherche arborescente. Des expériences approfondies valident l'efficacité de notre méthode. De plus, nous rendons publics notre modèle de récompense multifurcation entraîné (Saffron-1) et le jeu de données de récompenses de sécurité au niveau des tokens (Safety4M) pour accélérer les recherches futures sur la sécurité des LLM. Notre code, modèle et données sont disponibles publiquement à l'adresse https://github.com/q-rz/saffron, et la page d'accueil de notre projet se trouve à https://q-rz.github.io/p/saffron.
English
Existing safety assurance research has primarily focused on training-phase alignment to instill safe behaviors into LLMs. However, recent studies have exposed these methods' susceptibility to diverse jailbreak attacks. Concurrently, inference scaling has significantly advanced LLM reasoning capabilities but remains unexplored in the context of safety assurance. Addressing this gap, our work pioneers inference scaling for robust and effective LLM safety against emerging threats. We reveal that conventional inference scaling techniques, despite their success in reasoning tasks, perform poorly in safety contexts, even falling short of basic approaches like Best-of-N Sampling. We attribute this inefficiency to a newly identified challenge, the exploration--efficiency dilemma, arising from the high computational overhead associated with frequent process reward model (PRM) evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference scaling paradigm tailored explicitly for safety assurance. Central to our approach is the introduction of a multifurcation reward model (MRM) that significantly reduces the required number of reward model evaluations. To operationalize this paradigm, we further propose: (i) a partial supervision training objective for MRM, (ii) a conservative exploration constraint to prevent out-of-distribution explorations, and (iii) a Trie-based key--value caching strategy that facilitates cache sharing across sequences during tree search. Extensive experiments validate the effectiveness of our method. Additionally, we publicly release our trained multifurcation reward model (Saffron-1) and the accompanying token-level safety reward dataset (Safety4M) to accelerate future research in LLM safety. Our code, model, and data are publicly available at https://github.com/q-rz/saffron , and our project homepage is at https://q-rz.github.io/p/saffron .
PDF692June 10, 2025