Saffron-1: Rumo a um Paradigma de Escalonamento de Inferência para Garantia de Segurança em LLMs

Resumo

A pesquisa existente em garantia de segurança tem se concentrado principalmente no alinhamento durante a fase de treinamento para incutir comportamentos seguros em LLMs (Modelos de Linguagem de Grande Escala). No entanto, estudos recentes expuseram a suscetibilidade desses métodos a diversos ataques de jailbreak. Simultaneamente, o escalonamento de inferência avançou significativamente as capacidades de raciocínio dos LLMs, mas permanece inexplorado no contexto de garantia de segurança. Abordando essa lacuna, nosso trabalho pioneiro aplica o escalonamento de inferência para garantir a segurança robusta e eficaz dos LLMs contra ameaças emergentes. Revelamos que as técnicas convencionais de escalonamento de inferência, apesar de seu sucesso em tarefas de raciocínio, têm desempenho ruim em contextos de segurança, ficando aquém até mesmo de abordagens básicas como a Amostragem Best-of-N. Atribuímos essa ineficiência a um desafio recém-identificado, o dilema exploração-eficiência, que surge devido ao alto custo computacional associado às frequentes avaliações do modelo de recompensa de processo (PRM). Para superar esse dilema, propomos o SAFFRON, um novo paradigma de escalonamento de inferência projetado explicitamente para garantia de segurança. Central à nossa abordagem é a introdução de um modelo de recompensa multifurcação (MRM) que reduz significativamente o número necessário de avaliações do modelo de recompensa. Para operacionalizar esse paradigma, propomos ainda: (i) um objetivo de treinamento com supervisão parcial para o MRM, (ii) uma restrição de exploração conservadora para evitar explorações fora da distribuição, e (iii) uma estratégia de cache baseada em Trie que facilita o compartilhamento de cache entre sequências durante a busca em árvore. Experimentos extensivos validam a eficácia do nosso método. Além disso, disponibilizamos publicamente nosso modelo de recompensa multifurcação treinado (Saffron-1) e o conjunto de dados de recompensa de segurança em nível de token (Safety4M) para acelerar pesquisas futuras em segurança de LLMs. Nosso código, modelo e dados estão publicamente disponíveis em https://github.com/q-rz/saffron, e nossa página do projeto está em https://q-rz.github.io/p/saffron.

English

Existing safety assurance research has primarily focused on training-phase alignment to instill safe behaviors into LLMs. However, recent studies have exposed these methods' susceptibility to diverse jailbreak attacks. Concurrently, inference scaling has significantly advanced LLM reasoning capabilities but remains unexplored in the context of safety assurance. Addressing this gap, our work pioneers inference scaling for robust and effective LLM safety against emerging threats. We reveal that conventional inference scaling techniques, despite their success in reasoning tasks, perform poorly in safety contexts, even falling short of basic approaches like Best-of-N Sampling. We attribute this inefficiency to a newly identified challenge, the exploration--efficiency dilemma, arising from the high computational overhead associated with frequent process reward model (PRM) evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference scaling paradigm tailored explicitly for safety assurance. Central to our approach is the introduction of a multifurcation reward model (MRM) that significantly reduces the required number of reward model evaluations. To operationalize this paradigm, we further propose: (i) a partial supervision training objective for MRM, (ii) a conservative exploration constraint to prevent out-of-distribution explorations, and (iii) a Trie-based key--value caching strategy that facilitates cache sharing across sequences during tree search. Extensive experiments validate the effectiveness of our method. Additionally, we publicly release our trained multifurcation reward model (Saffron-1) and the accompanying token-level safety reward dataset (Safety4M) to accelerate future research in LLM safety. Our code, model, and data are publicly available at https://github.com/q-rz/saffron , and our project homepage is at https://q-rz.github.io/p/saffron .

Saffron-1: Rumo a um Paradigma de Escalonamento de Inferência para Garantia de Segurança em LLMs

Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

Resumo

Support