Adaptation d'un classifieur Safe-for-Work pour les textes en langue malaisienne : Amélioration de l'alignement dans le cadre LLM-Ops
Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework
July 30, 2024
Auteurs: Aisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) sont de plus en plus intégrés dans les flux de travail opérationnels (LLM-Ops), il devient urgent de mettre en place des garde-fous efficaces pour garantir des interactions sûres et alignées, y compris la capacité à détecter des contenus potentiellement dangereux ou inappropriés dans différentes langues. Cependant, les classificateurs de contenu adapté au travail existants se concentrent principalement sur les textes en anglais. Pour combler cette lacune dans le contexte de la langue malaisienne, nous présentons un nouveau classificateur de texte adapté au travail, spécialement conçu pour les contenus en malais. En constituant et en annotant un ensemble de données inédit de textes malaisiens couvrant plusieurs catégories de contenu, nous avons entraîné un modèle de classification capable d'identifier les matériaux potentiellement dangereux en utilisant des techniques de traitement du langage naturel de pointe. Ce travail représente une étape importante pour permettre des interactions plus sûres et un filtrage des contenus afin d'atténuer les risques potentiels et d'assurer un déploiement responsable des LLM. Pour maximiser l'accessibilité et encourager des recherches supplémentaires visant à améliorer l'alignement dans les LLM-Ops dans le contexte malaisien, le modèle est rendu public à l'adresse suivante : https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
English
As large language models (LLMs) become increasingly integrated into
operational workflows (LLM-Ops), there is a pressing need for effective
guardrails to ensure safe and aligned interactions, including the ability to
detect potentially unsafe or inappropriate content across languages. However,
existing safe-for-work classifiers are primarily focused on English text. To
address this gap for the Malaysian language, we present a novel safe-for-work
text classifier tailored specifically for Malaysian language content. By
curating and annotating a first-of-its-kind dataset of Malaysian text spanning
multiple content categories, we trained a classification model capable of
identifying potentially unsafe material using state-of-the-art natural language
processing techniques. This work represents an important step in enabling safer
interactions and content filtering to mitigate potential risks and ensure
responsible deployment of LLMs. To maximize accessibility and promote further
research towards enhancing alignment in LLM-Ops for the Malaysian context, the
model is publicly released at
https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.Summary
AI-Generated Summary