Anpassung eines Safe-for-Work-Klassifizierers für malaiische Texte: Verbesserung der Ausrichtung im LLM-Ops Framework.

papers.abstract

Mit der zunehmenden Integration großer Sprachmodelle (LLMs) in operative Workflows (LLM-Ops) besteht ein dringender Bedarf an effektiven Schutzmechanismen, um sichere und ausgerichtete Interaktionen zu gewährleisten, einschließlich der Fähigkeit, potenziell unsichere oder unangemessene Inhalte in verschiedenen Sprachen zu erkennen. Allerdings sind bestehende "safe-for-work"-Klassifizierer hauptsächlich auf englischen Text ausgerichtet. Um diese Lücke für die malaysische Sprache zu schließen, präsentieren wir einen neuartigen "safe-for-work"-Textklassifizierer, der speziell auf malaysische Inhalte zugeschnitten ist. Durch die Zusammenstellung und Annotation eines bisher einzigartigen Datensatzes malaysischer Texte aus verschiedenen Inhaltkategorien haben wir ein Klassifizierungsmodell trainiert, das potenziell unsicheres Material mithilfe modernster Techniken der natürlichen Sprachverarbeitung identifizieren kann. Diese Arbeit stellt einen wichtigen Schritt dar, um sicherere Interaktionen und Inhaltsfilterung zu ermöglichen, potenzielle Risiken zu mindern und eine verantwortungsbewusste Bereitstellung von LLMs sicherzustellen. Um die Zugänglichkeit zu maximieren und weitere Forschung zur Verbesserung der Ausrichtung in LLM-Ops für den malaysischen Kontext zu fördern, wurde das Modell öffentlich unter https://huggingface.co/malaysia-ai/malaysian-sfw-classifier veröffentlicht.

English

As large language models (LLMs) become increasingly integrated into operational workflows (LLM-Ops), there is a pressing need for effective guardrails to ensure safe and aligned interactions, including the ability to detect potentially unsafe or inappropriate content across languages. However, existing safe-for-work classifiers are primarily focused on English text. To address this gap for the Malaysian language, we present a novel safe-for-work text classifier tailored specifically for Malaysian language content. By curating and annotating a first-of-its-kind dataset of Malaysian text spanning multiple content categories, we trained a classification model capable of identifying potentially unsafe material using state-of-the-art natural language processing techniques. This work represents an important step in enabling safer interactions and content filtering to mitigate potential risks and ensure responsible deployment of LLMs. To maximize accessibility and promote further research towards enhancing alignment in LLM-Ops for the Malaysian context, the model is publicly released at https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.

Anpassung eines Safe-for-Work-Klassifizierers für malaiische Texte: Verbesserung der Ausrichtung im LLM-Ops Framework.

Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework

papers.abstract

Support