ToVo: Toxiciteitsclassificatie via Stemming

Samenvatting

Bestaande modellen voor het detecteren van giftige inhoud kampen met aanzienlijke beperkingen, zoals een gebrek aan transparantie, aanpasbaarheid en reproduceerbaarheid. Deze uitdagingen zijn het gevolg van de gesloten aard van hun trainingsdata en het gebrek aan uitleg over hun evaluatiemechanisme. Om deze problemen aan te pakken, stellen we een mechanisme voor het creëren van datasets voor dat stemprocessen en keten-van-gedachtenprocessen integreert, wat resulteert in een hoogwaardige open-source dataset voor het detecteren van giftige inhoud. Onze methodologie zorgt voor diverse classificatiemetrics voor elk sample en omvat zowel classificatiescores als verklarende redeneringen voor de classificaties. We gebruiken de dataset die is gemaakt via ons voorgestelde mechanisme om ons model te trainen, dat vervolgens wordt vergeleken met bestaande veelgebruikte detectoren. Onze aanpak verbetert niet alleen de transparantie en aanpasbaarheid, maar maakt ook betere fine-tuning mogelijk voor specifieke use cases. Dit werk draagt bij aan een robuust raamwerk voor het ontwikkelen van modellen voor het detecteren van giftige inhoud, met nadruk op openheid en aanpasbaarheid, en opent zo de weg naar effectievere en gebruikersspecifieke oplossingen voor contentmoderatie.

English

Existing toxic detection models face significant limitations, such as lack of transparency, customization, and reproducibility. These challenges stem from the closed-source nature of their training data and the paucity of explanations for their evaluation mechanism. To address these issues, we propose a dataset creation mechanism that integrates voting and chain-of-thought processes, producing a high-quality open-source dataset for toxic content detection. Our methodology ensures diverse classification metrics for each sample and includes both classification scores and explanatory reasoning for the classifications. We utilize the dataset created through our proposed mechanism to train our model, which is then compared against existing widely-used detectors. Our approach not only enhances transparency and customizability but also facilitates better fine-tuning for specific use cases. This work contributes a robust framework for developing toxic content detection models, emphasizing openness and adaptability, thus paving the way for more effective and user-specific content moderation solutions.

ToVo: Toxiciteitsclassificatie via Stemming

ToVo: Toxicity Taxonomy via Voting

Samenvatting

Support