Anpassung eines Safe-for-Work-Klassifizierers für malaiische Texte: Verbesserung der Ausrichtung im LLM-Ops Framework.
Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework
July 30, 2024
Autoren: Aisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman
cs.AI
Zusammenfassung
Mit der zunehmenden Integration großer Sprachmodelle (LLMs) in operative Workflows (LLM-Ops) besteht ein dringender Bedarf an effektiven Schutzmechanismen, um sichere und ausgerichtete Interaktionen zu gewährleisten, einschließlich der Fähigkeit, potenziell unsichere oder unangemessene Inhalte in verschiedenen Sprachen zu erkennen. Allerdings sind bestehende "safe-for-work"-Klassifizierer hauptsächlich auf englischen Text ausgerichtet. Um diese Lücke für die malaysische Sprache zu schließen, präsentieren wir einen neuartigen "safe-for-work"-Textklassifizierer, der speziell auf malaysische Inhalte zugeschnitten ist. Durch die Zusammenstellung und Annotation eines bisher einzigartigen Datensatzes malaysischer Texte aus verschiedenen Inhaltkategorien haben wir ein Klassifizierungsmodell trainiert, das potenziell unsicheres Material mithilfe modernster Techniken der natürlichen Sprachverarbeitung identifizieren kann. Diese Arbeit stellt einen wichtigen Schritt dar, um sicherere Interaktionen und Inhaltsfilterung zu ermöglichen, potenzielle Risiken zu mindern und eine verantwortungsbewusste Bereitstellung von LLMs sicherzustellen. Um die Zugänglichkeit zu maximieren und weitere Forschung zur Verbesserung der Ausrichtung in LLM-Ops für den malaysischen Kontext zu fördern, wurde das Modell öffentlich unter https://huggingface.co/malaysia-ai/malaysian-sfw-classifier veröffentlicht.
English
As large language models (LLMs) become increasingly integrated into
operational workflows (LLM-Ops), there is a pressing need for effective
guardrails to ensure safe and aligned interactions, including the ability to
detect potentially unsafe or inappropriate content across languages. However,
existing safe-for-work classifiers are primarily focused on English text. To
address this gap for the Malaysian language, we present a novel safe-for-work
text classifier tailored specifically for Malaysian language content. By
curating and annotating a first-of-its-kind dataset of Malaysian text spanning
multiple content categories, we trained a classification model capable of
identifying potentially unsafe material using state-of-the-art natural language
processing techniques. This work represents an important step in enabling safer
interactions and content filtering to mitigate potential risks and ensure
responsible deployment of LLMs. To maximize accessibility and promote further
research towards enhancing alignment in LLM-Ops for the Malaysian context, the
model is publicly released at
https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.Summary
AI-Generated Summary