Azafrán-1: Hacia un Paradigma de Escalado de Inferencia para la Garantía de Seguridad en Modelos de Lenguaje de Gran Escala
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance
June 6, 2025
Autores: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
cs.AI
Resumen
La investigación existente sobre garantía de seguridad se ha centrado principalmente en la alineación durante la fase de entrenamiento para inculcar comportamientos seguros en los LLM. Sin embargo, estudios recientes han expuesto la susceptibilidad de estos métodos a diversos ataques de jailbreak. Paralelamente, el escalado en inferencia ha avanzado significativamente las capacidades de razonamiento de los LLM, pero sigue sin explorarse en el contexto de la garantía de seguridad. Abordando esta brecha, nuestro trabajo pionero en escalado de inferencia busca una seguridad robusta y efectiva en los LLM frente a amenazas emergentes. Revelamos que las técnicas convencionales de escalado en inferencia, a pesar de su éxito en tareas de razonamiento, tienen un desempeño deficiente en contextos de seguridad, incluso quedando por debajo de enfoques básicos como el muestreo Best-of-N. Atribuimos esta ineficiencia a un desafío recién identificado, el dilema exploración-eficiencia, que surge del alto costo computacional asociado con las frecuentes evaluaciones del modelo de recompensa de proceso (PRM). Para superar este dilema, proponemos SAFFRON, un nuevo paradigma de escalado en inferencia diseñado explícitamente para la garantía de seguridad. Central a nuestro enfoque es la introducción de un modelo de recompensa multifurcación (MRM) que reduce significativamente el número requerido de evaluaciones del modelo de recompensa. Para operacionalizar este paradigma, proponemos además: (i) un objetivo de entrenamiento con supervisión parcial para el MRM, (ii) una restricción de exploración conservadora para prevenir exploraciones fuera de distribución, y (iii) una estrategia de almacenamiento en caché basada en Trie que facilita el intercambio de caché entre secuencias durante la búsqueda en árbol. Experimentos extensos validan la efectividad de nuestro método. Adicionalmente, publicamos nuestro modelo de recompensa multifurcación entrenado (Saffron-1) y el conjunto de datos de recompensa de seguridad a nivel de token (Safety4M) para acelerar futuras investigaciones en seguridad de LLM. Nuestro código, modelo y datos están disponibles públicamente en https://github.com/q-rz/saffron, y nuestra página del proyecto se encuentra en https://q-rz.github.io/p/saffron.
English
Existing safety assurance research has primarily focused on training-phase
alignment to instill safe behaviors into LLMs. However, recent studies have
exposed these methods' susceptibility to diverse jailbreak attacks.
Concurrently, inference scaling has significantly advanced LLM reasoning
capabilities but remains unexplored in the context of safety assurance.
Addressing this gap, our work pioneers inference scaling for robust and
effective LLM safety against emerging threats. We reveal that conventional
inference scaling techniques, despite their success in reasoning tasks, perform
poorly in safety contexts, even falling short of basic approaches like
Best-of-N Sampling. We attribute this inefficiency to a newly identified
challenge, the exploration--efficiency dilemma, arising from the high
computational overhead associated with frequent process reward model (PRM)
evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference
scaling paradigm tailored explicitly for safety assurance. Central to our
approach is the introduction of a multifurcation reward model (MRM) that
significantly reduces the required number of reward model evaluations. To
operationalize this paradigm, we further propose: (i) a partial supervision
training objective for MRM, (ii) a conservative exploration constraint to
prevent out-of-distribution explorations, and (iii) a Trie-based key--value
caching strategy that facilitates cache sharing across sequences during tree
search. Extensive experiments validate the effectiveness of our method.
Additionally, we publicly release our trained multifurcation reward model
(Saffron-1) and the accompanying token-level safety reward dataset (Safety4M)
to accelerate future research in LLM safety. Our code, model, and data are
publicly available at https://github.com/q-rz/saffron , and our project
homepage is at https://q-rz.github.io/p/saffron .