대규모 언어 모델을 위한 강력한 안전장치를 갖춘 분류체계 적응형 조정 모델
Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models
December 5, 2025
저자: Mahesh Kumar Nandwana, Youngwan Lim, Joseph Liu, Alex Yang, Varun Notibala, Nishchaie Khanna
cs.AI
초록
대규모 언어 모델(LLM)은 일반적으로 사후 훈련 단계에서 안전성을 위해 조정되지만, 여전히 사용자에게 잠재적 위험을 초래할 수 있는 부적절한 출력을 생성할 수 있습니다. 이러한 과제는 모델 입력과 출력 모두에서 작동하는 견고한 안전 장치의 필요성을 강조합니다. 본 연구에서는 포괄적인 입출력 조정을 통해 LLM 시스템의 안전성을 강화하도록 설계된 최첨단 인스트럭션 파인튜닝 LLM인 Roblox Guard 1.0을 소개합니다. 이는 조정 능력을 향상시키기 위해 다중 LLM 파이프라인을 활용합니다. Llama-3.1-8B-Instruct 백본을 기반으로 구축된 우리 모델은 이전에 접하지 못한 안전 분류 체계에 대해 일반화하도록 인스트럭션 파인튜닝되었으며, 도메인 외 안전 벤치마크에서 강력한 성능을 보여줍니다. 인스트럭션 파인튜닝 과정은 합성 및 오픈 소스 안전 데이터셋의 혼합을 사용하며, 상황적 이해와 의사 결정을 향상시키기 위해 사고 연쇄(CoT) 근거 및 입력 반전 기법으로 증강됩니다. 체계적인 평가를 지원하기 위해, 우리는 LLM 안전 장치 및 조정 프레임워크의 효과를 평가하기 위한 확장 가능한 안전 분류 체계를 갖춘 새로운 벤치마크인 RobloxGuard-Eval도 공개합니다.
English
Large Language Models (LLMs) are typically aligned for safety during the post-training phase; however, they may still generate inappropriate outputs that could potentially pose risks to users. This challenge underscores the need for robust safeguards that operate across both model inputs and outputs. In this work, we introduce Roblox Guard 1.0, a state-of-the-art instruction fine-tuned LLM designed to enhance the safety of LLM systems through comprehensive input-output moderation, using a pipeline of LLMs to enhance moderation capability. Built on the Llama-3.1-8B-Instruct backbone, our model is instruction fine-tuned to generalize across previously unseen safety taxonomies and demonstrates strong performance on out-of-domain safety benchmarks. The instruction fine-tuning process uses a mix of synthetic and open-source safety datasets, augmented with chain-of-thought (CoT) rationales and input inversion to enhance contextual understanding and decision making. To support systematic evaluation, we also release RobloxGuard-Eval, a new benchmark featuring an extensible safety taxonomy to assess the effectiveness of LLM guardrails and moderation frameworks.