Saffron-1: Rumo a um Paradigma de Escalonamento de Inferência para Garantia de Segurança em LLMs
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance
June 6, 2025
Autores: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
cs.AI
Resumo
A pesquisa existente em garantia de segurança tem se concentrado principalmente no alinhamento durante a fase de treinamento para incutir comportamentos seguros em LLMs (Modelos de Linguagem de Grande Escala). No entanto, estudos recentes expuseram a suscetibilidade desses métodos a diversos ataques de jailbreak. Simultaneamente, o escalonamento de inferência avançou significativamente as capacidades de raciocínio dos LLMs, mas permanece inexplorado no contexto de garantia de segurança. Abordando essa lacuna, nosso trabalho pioneiro aplica o escalonamento de inferência para garantir a segurança robusta e eficaz dos LLMs contra ameaças emergentes. Revelamos que as técnicas convencionais de escalonamento de inferência, apesar de seu sucesso em tarefas de raciocínio, têm desempenho ruim em contextos de segurança, ficando aquém até mesmo de abordagens básicas como a Amostragem Best-of-N. Atribuímos essa ineficiência a um desafio recém-identificado, o dilema exploração-eficiência, que surge devido ao alto custo computacional associado às frequentes avaliações do modelo de recompensa de processo (PRM). Para superar esse dilema, propomos o SAFFRON, um novo paradigma de escalonamento de inferência projetado explicitamente para garantia de segurança. Central à nossa abordagem é a introdução de um modelo de recompensa multifurcação (MRM) que reduz significativamente o número necessário de avaliações do modelo de recompensa. Para operacionalizar esse paradigma, propomos ainda: (i) um objetivo de treinamento com supervisão parcial para o MRM, (ii) uma restrição de exploração conservadora para evitar explorações fora da distribuição, e (iii) uma estratégia de cache baseada em Trie que facilita o compartilhamento de cache entre sequências durante a busca em árvore. Experimentos extensivos validam a eficácia do nosso método. Além disso, disponibilizamos publicamente nosso modelo de recompensa multifurcação treinado (Saffron-1) e o conjunto de dados de recompensa de segurança em nível de token (Safety4M) para acelerar pesquisas futuras em segurança de LLMs. Nosso código, modelo e dados estão publicamente disponíveis em https://github.com/q-rz/saffron, e nossa página do projeto está em https://q-rz.github.io/p/saffron.
English
Existing safety assurance research has primarily focused on training-phase
alignment to instill safe behaviors into LLMs. However, recent studies have
exposed these methods' susceptibility to diverse jailbreak attacks.
Concurrently, inference scaling has significantly advanced LLM reasoning
capabilities but remains unexplored in the context of safety assurance.
Addressing this gap, our work pioneers inference scaling for robust and
effective LLM safety against emerging threats. We reveal that conventional
inference scaling techniques, despite their success in reasoning tasks, perform
poorly in safety contexts, even falling short of basic approaches like
Best-of-N Sampling. We attribute this inefficiency to a newly identified
challenge, the exploration--efficiency dilemma, arising from the high
computational overhead associated with frequent process reward model (PRM)
evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference
scaling paradigm tailored explicitly for safety assurance. Central to our
approach is the introduction of a multifurcation reward model (MRM) that
significantly reduces the required number of reward model evaluations. To
operationalize this paradigm, we further propose: (i) a partial supervision
training objective for MRM, (ii) a conservative exploration constraint to
prevent out-of-distribution explorations, and (iii) a Trie-based key--value
caching strategy that facilitates cache sharing across sequences during tree
search. Extensive experiments validate the effectiveness of our method.
Additionally, we publicly release our trained multifurcation reward model
(Saffron-1) and the accompanying token-level safety reward dataset (Safety4M)
to accelerate future research in LLM safety. Our code, model, and data are
publicly available at https://github.com/q-rz/saffron , and our project
homepage is at https://q-rz.github.io/p/saffron .