Saffron-1: Auf dem Weg zu einem Inferenz-Skalierungsparadigma für die Sicherheitsgewährleistung von LLMs
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance
June 6, 2025
Autoren: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
cs.AI
Zusammenfassung
Bisherige Forschung zur Sicherheitsgewährleistung konzentrierte sich hauptsächlich auf die Trainingsphase, um sichere Verhaltensweisen in Large Language Models (LLMs) zu verankern. Jüngste Studien haben jedoch gezeigt, dass diese Methoden anfällig für diverse Jailbreak-Angriffe sind. Gleichzeitig hat die Inferenzskalierung die Fähigkeiten von LLMs im Bereich des logischen Denkens erheblich verbessert, wurde jedoch im Kontext der Sicherheitsgewährleistung noch nicht untersucht. Um diese Lücke zu schließen, führt unsere Arbeit die Inferenzskalierung für eine robuste und effektive Sicherheit von LLMs gegen neu auftretende Bedrohungen ein. Wir zeigen, dass konventionelle Inferenzskalierungstechniken, trotz ihrer Erfolge bei Denkaufgaben, in Sicherheitskontexten schlecht abschneiden und sogar hinter grundlegenden Ansätzen wie Best-of-N Sampling zurückbleiben. Diese Ineffizienz führen wir auf ein neu identifiziertes Problem zurück, das Exploration-Effizienz-Dilemma, das durch den hohen Rechenaufwand im Zusammenhang mit häufigen Bewertungen des Prozess-Belohnungsmodells (PRM) entsteht. Um dieses Dilemma zu überwinden, schlagen wir SAFFRON vor, ein neuartiges Inferenzskalierungsparadigma, das speziell für die Sicherheitsgewährleistung entwickelt wurde. Kern unseres Ansatzes ist die Einführung eines multifurkationsbasierten Belohnungsmodells (MRM), das die Anzahl der erforderlichen Belohnungsmodellbewertungen erheblich reduziert. Um dieses Paradigma umzusetzen, schlagen wir weiterhin vor: (i) ein partielles Überwachungsziel für das Training des MRM, (ii) eine konservative Explorationsbeschränkung, um Explorationen außerhalb der Verteilung zu verhindern, und (iii) eine Trie-basierte Schlüssel-Wert-Caching-Strategie, die die gemeinsame Nutzung von Caches über Sequenzen während der Baumsuche ermöglicht. Umfangreiche Experimente bestätigen die Wirksamkeit unserer Methode. Zusätzlich veröffentlichen wir unser trainiertes multifurkationsbasiertes Belohnungsmodell (Saffron-1) und den begleitenden tokenbasierten Sicherheits-Belohnungsdatensatz (Safety4M), um zukünftige Forschungen zur Sicherheit von LLMs zu beschleunigen. Unser Code, Modell und Daten sind öffentlich verfügbar unter https://github.com/q-rz/saffron, und unsere Projekt-Homepage befindet sich unter https://q-rz.github.io/p/saffron.
English
Existing safety assurance research has primarily focused on training-phase
alignment to instill safe behaviors into LLMs. However, recent studies have
exposed these methods' susceptibility to diverse jailbreak attacks.
Concurrently, inference scaling has significantly advanced LLM reasoning
capabilities but remains unexplored in the context of safety assurance.
Addressing this gap, our work pioneers inference scaling for robust and
effective LLM safety against emerging threats. We reveal that conventional
inference scaling techniques, despite their success in reasoning tasks, perform
poorly in safety contexts, even falling short of basic approaches like
Best-of-N Sampling. We attribute this inefficiency to a newly identified
challenge, the exploration--efficiency dilemma, arising from the high
computational overhead associated with frequent process reward model (PRM)
evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference
scaling paradigm tailored explicitly for safety assurance. Central to our
approach is the introduction of a multifurcation reward model (MRM) that
significantly reduces the required number of reward model evaluations. To
operationalize this paradigm, we further propose: (i) a partial supervision
training objective for MRM, (ii) a conservative exploration constraint to
prevent out-of-distribution explorations, and (iii) a Trie-based key--value
caching strategy that facilitates cache sharing across sequences during tree
search. Extensive experiments validate the effectiveness of our method.
Additionally, we publicly release our trained multifurcation reward model
(Saffron-1) and the accompanying token-level safety reward dataset (Safety4M)
to accelerate future research in LLM safety. Our code, model, and data are
publicly available at https://github.com/q-rz/saffron , and our project
homepage is at https://q-rz.github.io/p/saffron .