Het aanpassen van een Safe-for-Work Classificator voor Maleisische Taaltekst: Verbetering van Afstemming in het LLM-Ops Framework
Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework
July 30, 2024
Auteurs: Aisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLMs) steeds meer worden geïntegreerd in operationele workflows (LLM-Ops), is er een dringende behoefte aan effectieve beveiligingsmaatregelen om veilige en afgestemde interacties te waarborgen, inclusief de mogelijkheid om potentieel onveilige of ongepaste inhoud in verschillende talen te detecteren. Bestaande veilig-voor-werkclassificatoren zijn echter voornamelijk gericht op Engelstalige tekst. Om deze kloof voor de Maleisische taal te overbruggen, presenteren we een nieuwe veilig-voor-werktekstclassificatie die specifiek is afgestemd op Maleisische taalinhoud. Door een unieke dataset van Maleisische tekst, die meerdere inhoudscategorieën omvat, te cureren en annoteren, hebben we een classificatiemodel getraind dat in staat is potentieel onveilig materiaal te identificeren met behulp van state-of-the-art technieken voor natuurlijke taalverwerking. Dit werk vertegenwoordigt een belangrijke stap in het mogelijk maken van veiligere interacties en inhoudsfiltering om potentiële risico's te beperken en een verantwoorde inzet van LLMs te waarborgen. Om de toegankelijkheid te maximaliseren en verder onderzoek te bevorderen naar het verbeteren van afstemming in LLM-Ops voor de Maleisische context, is het model openbaar vrijgegeven op https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
English
As large language models (LLMs) become increasingly integrated into
operational workflows (LLM-Ops), there is a pressing need for effective
guardrails to ensure safe and aligned interactions, including the ability to
detect potentially unsafe or inappropriate content across languages. However,
existing safe-for-work classifiers are primarily focused on English text. To
address this gap for the Malaysian language, we present a novel safe-for-work
text classifier tailored specifically for Malaysian language content. By
curating and annotating a first-of-its-kind dataset of Malaysian text spanning
multiple content categories, we trained a classification model capable of
identifying potentially unsafe material using state-of-the-art natural language
processing techniques. This work represents an important step in enabling safer
interactions and content filtering to mitigate potential risks and ensure
responsible deployment of LLMs. To maximize accessibility and promote further
research towards enhancing alignment in LLM-Ops for the Malaysian context, the
model is publicly released at
https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.