Taxonomie-Adaptief Moderatiemodel met Robuuste Beveiligingsmechanismen voor Grote Taalmodellen
Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models
December 5, 2025
Auteurs: Mahesh Kumar Nandwana, Youngwan Lim, Joseph Liu, Alex Yang, Varun Notibala, Nishchaie Khanna
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) worden doorgaans voor veiligheid afgestemd tijdens de post-trainingsfase; desalniettemin kunnen ze nog steeds ongepaste uitvoer genereren die mogelijk risico's voor gebruikers kan opleveren. Deze uitdaging benadrukt de noodzaak van robuuste veiligheidsmaatregelen die werken op zowel modelinvoer als -uitvoer. In dit werk introduceren we Roblox Guard 1.0, een state-of-the-art, instructie-fijn afgestemd LLM dat is ontworpen om de veiligheid van LLM-systemen te verbeteren door middel van uitgebreide moderatie van invoer en uitvoer, waarbij een pijplijn van LLM's wordt gebruikt om de moderatiecapaciteit te versterken. Gebouwd op de Llama-3.1-8B-Instruct-backbone, is ons model instructie-fijn afgestemd om te generaliseren over voorheen onbekende veiligheidstaxonomieën en toont het sterke prestaties op veiligheidsbenchmarks buiten het oorspronkelijke domein. Het instructie-fijn afstemmingsproces gebruikt een mix van synthetische en open-source veiligheidsdatasets, aangevuld met chain-of-thought (CoT)-redeneringen en input-inversie om het contextueel begrip en de besluitvorming te verbeteren. Om systematische evaluatie te ondersteunen, brengen we ook RobloxGuard-Eval uit, een nieuwe benchmark met een uitbreidbare veiligheidstaxonomie om de effectiviteit van LLM-veiligheidsvoorzieningen en moderatieraamwerken te beoordelen.
English
Large Language Models (LLMs) are typically aligned for safety during the post-training phase; however, they may still generate inappropriate outputs that could potentially pose risks to users. This challenge underscores the need for robust safeguards that operate across both model inputs and outputs. In this work, we introduce Roblox Guard 1.0, a state-of-the-art instruction fine-tuned LLM designed to enhance the safety of LLM systems through comprehensive input-output moderation, using a pipeline of LLMs to enhance moderation capability. Built on the Llama-3.1-8B-Instruct backbone, our model is instruction fine-tuned to generalize across previously unseen safety taxonomies and demonstrates strong performance on out-of-domain safety benchmarks. The instruction fine-tuning process uses a mix of synthetic and open-source safety datasets, augmented with chain-of-thought (CoT) rationales and input inversion to enhance contextual understanding and decision making. To support systematic evaluation, we also release RobloxGuard-Eval, a new benchmark featuring an extensible safety taxonomy to assess the effectiveness of LLM guardrails and moderation frameworks.