ChatPaper.aiChatPaper

大規模言語モデルのための堅牢なガードレールを備えた分類体系適応型モデレーションモデル

Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models

December 5, 2025
著者: Mahesh Kumar Nandwana, Youngwan Lim, Joseph Liu, Alex Yang, Varun Notibala, Nishchaie Khanna
cs.AI

要旨

大規模言語モデル(LLM)は通常、学習後フェーズにおいて安全性のためにアライメントが行われるが、不適切な出力を生成する可能性があり、ユーザーにリスクをもたらす恐れがある。この課題は、モデルの入力と出力の両方で機能する堅牢なセーフガードの必要性を浮き彫りにしている。本研究では、LLMシステムの安全性を包括的な入出力モデレーションを通じて強化する、最先端の指示チューニング済みLLM「Roblox Guard 1.0」を提案する。本モデルはLLMパイプラインを使用してモデレーション能力を高める。Llama-3.1-8B-Instructを基盤として構築された当モデルは、未見の安全性分類体系への汎化が可能なように指示チューニングされ、ドメイン外の安全性ベンチマークで強力な性能を発揮する。指示チューニングプロセスでは、合成的およびオープンソースの安全性データセットを混合使用し、連鎖思考(CoT)による根拠と入力反転を追加して、文脈理解と意思決定を強化している。体系的な評価を支援するため、LLMのガードレールとモデレーションフレームワークの効果を評価する拡張可能な安全性分類体系を備えた新しいベンチマーク「RobloxGuard-Eval」も公開する。
English
Large Language Models (LLMs) are typically aligned for safety during the post-training phase; however, they may still generate inappropriate outputs that could potentially pose risks to users. This challenge underscores the need for robust safeguards that operate across both model inputs and outputs. In this work, we introduce Roblox Guard 1.0, a state-of-the-art instruction fine-tuned LLM designed to enhance the safety of LLM systems through comprehensive input-output moderation, using a pipeline of LLMs to enhance moderation capability. Built on the Llama-3.1-8B-Instruct backbone, our model is instruction fine-tuned to generalize across previously unseen safety taxonomies and demonstrates strong performance on out-of-domain safety benchmarks. The instruction fine-tuning process uses a mix of synthetic and open-source safety datasets, augmented with chain-of-thought (CoT) rationales and input inversion to enhance contextual understanding and decision making. To support systematic evaluation, we also release RobloxGuard-Eval, a new benchmark featuring an extensible safety taxonomy to assess the effectiveness of LLM guardrails and moderation frameworks.
PDF02December 9, 2025