Saffron-1: К парадигме масштабирования вывода для обеспечения безопасности крупных языковых моделей
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance
June 6, 2025
Авторы: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
cs.AI
Аннотация
Исследования в области обеспечения безопасности в основном сосредоточены на этапе обучения для внедрения безопасного поведения в большие языковые модели (LLM). Однако недавние исследования выявили уязвимость этих методов к различным атакам jailbreak. В то же время масштабирование на этапе вывода значительно улучшило способности LLM к рассуждению, но остается неисследованным в контексте обеспечения безопасности. Восполняя этот пробел, наша работа впервые применяет масштабирование вывода для обеспечения устойчивой и эффективной безопасности LLM перед новыми угрозами. Мы показываем, что традиционные методы масштабирования вывода, несмотря на их успех в задачах рассуждения, плохо справляются в контексте безопасности, уступая даже базовым подходам, таким как Best-of-N Sampling. Мы связываем эту неэффективность с новой выявленной проблемой — дилеммой исследования и эффективности, возникающей из-за высоких вычислительных затрат, связанных с частыми оценками модели вознаграждения процесса (PRM). Для преодоления этой дилеммы мы предлагаем SAFFRON, новую парадигму масштабирования вывода, специально разработанную для обеспечения безопасности. Основой нашего подхода является введение модели многоразветвленного вознаграждения (MRM), которая значительно сокращает количество необходимых оценок модели вознаграждения. Для реализации этой парадигмы мы также предлагаем: (i) цель обучения с частичным контролем для MRM, (ii) ограничение консервативного исследования для предотвращения выхода за пределы распределения и (iii) стратегию кэширования на основе Trie, которая облегчает совместное использование кэша между последовательностями при поиске по дереву. Многочисленные эксперименты подтверждают эффективность нашего метода. Кроме того, мы публикуем нашу обученную модель многоразветвленного вознаграждения (Saffron-1) и соответствующий набор данных токен-уровневого вознаграждения за безопасность (Safety4M) для ускорения будущих исследований в области безопасности LLM. Наш код, модель и данные доступны по адресу https://github.com/q-rz/saffron, а страница проекта находится по адресу https://q-rz.github.io/p/saffron.
English
Existing safety assurance research has primarily focused on training-phase
alignment to instill safe behaviors into LLMs. However, recent studies have
exposed these methods' susceptibility to diverse jailbreak attacks.
Concurrently, inference scaling has significantly advanced LLM reasoning
capabilities but remains unexplored in the context of safety assurance.
Addressing this gap, our work pioneers inference scaling for robust and
effective LLM safety against emerging threats. We reveal that conventional
inference scaling techniques, despite their success in reasoning tasks, perform
poorly in safety contexts, even falling short of basic approaches like
Best-of-N Sampling. We attribute this inefficiency to a newly identified
challenge, the exploration--efficiency dilemma, arising from the high
computational overhead associated with frequent process reward model (PRM)
evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference
scaling paradigm tailored explicitly for safety assurance. Central to our
approach is the introduction of a multifurcation reward model (MRM) that
significantly reduces the required number of reward model evaluations. To
operationalize this paradigm, we further propose: (i) a partial supervision
training objective for MRM, (ii) a conservative exploration constraint to
prevent out-of-distribution explorations, and (iii) a Trie-based key--value
caching strategy that facilitates cache sharing across sequences during tree
search. Extensive experiments validate the effectiveness of our method.
Additionally, we publicly release our trained multifurcation reward model
(Saffron-1) and the accompanying token-level safety reward dataset (Safety4M)
to accelerate future research in LLM safety. Our code, model, and data are
publicly available at https://github.com/q-rz/saffron , and our project
homepage is at https://q-rz.github.io/p/saffron .