ToVo: Toxiciteitsclassificatie via Stemming
ToVo: Toxicity Taxonomy via Voting
June 21, 2024
Auteurs: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen
cs.AI
Samenvatting
Bestaande modellen voor het detecteren van giftige inhoud kampen met aanzienlijke beperkingen, zoals een gebrek aan transparantie, aanpasbaarheid en reproduceerbaarheid. Deze uitdagingen zijn het gevolg van de gesloten aard van hun trainingsdata en het gebrek aan uitleg over hun evaluatiemechanisme. Om deze problemen aan te pakken, stellen we een mechanisme voor het creëren van datasets voor dat stemprocessen en keten-van-gedachtenprocessen integreert, wat resulteert in een hoogwaardige open-source dataset voor het detecteren van giftige inhoud. Onze methodologie zorgt voor diverse classificatiemetrics voor elk sample en omvat zowel classificatiescores als verklarende redeneringen voor de classificaties.
We gebruiken de dataset die is gemaakt via ons voorgestelde mechanisme om ons model te trainen, dat vervolgens wordt vergeleken met bestaande veelgebruikte detectoren. Onze aanpak verbetert niet alleen de transparantie en aanpasbaarheid, maar maakt ook betere fine-tuning mogelijk voor specifieke use cases. Dit werk draagt bij aan een robuust raamwerk voor het ontwikkelen van modellen voor het detecteren van giftige inhoud, met nadruk op openheid en aanpasbaarheid, en opent zo de weg naar effectievere en gebruikersspecifieke oplossingen voor contentmoderatie.
English
Existing toxic detection models face significant limitations, such as lack of
transparency, customization, and reproducibility. These challenges stem from
the closed-source nature of their training data and the paucity of explanations
for their evaluation mechanism. To address these issues, we propose a dataset
creation mechanism that integrates voting and chain-of-thought processes,
producing a high-quality open-source dataset for toxic content detection. Our
methodology ensures diverse classification metrics for each sample and includes
both classification scores and explanatory reasoning for the classifications.
We utilize the dataset created through our proposed mechanism to train our
model, which is then compared against existing widely-used detectors. Our
approach not only enhances transparency and customizability but also
facilitates better fine-tuning for specific use cases. This work contributes a
robust framework for developing toxic content detection models, emphasizing
openness and adaptability, thus paving the way for more effective and
user-specific content moderation solutions.