ToVo: Taxonomie der Toxizität durch Abstimmung
ToVo: Toxicity Taxonomy via Voting
June 21, 2024
Autoren: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen
cs.AI
Zusammenfassung
Bestehende Modelle zur Erkennung von toxischen Inhalten stoßen auf erhebliche Einschränkungen, wie beispielsweise mangelnde Transparenz, Anpassungsfähigkeit und Reproduzierbarkeit. Diese Herausforderungen resultieren aus dem Closed-Source-Charakter ihrer Trainingsdaten und dem Mangel an Erklärungen für ihren Bewertungsmechanismus. Um diesen Problemen zu begegnen, schlagen wir einen Mechanismus zur Erstellung von Datensätzen vor, der Abstimmung und Ketten-Denkvorgänge integriert und einen hochwertigen Open-Source-Datensatz für die Erkennung von toxischen Inhalten erzeugt. Unsere Methodik gewährleistet vielfältige Klassifizierungsmetriken für jedes Beispiel und beinhaltet sowohl Klassifizierungswerte als auch erläuternde Begründungen für die Klassifizierungen.
Wir nutzen den durch unseren vorgeschlagenen Mechanismus erstellten Datensatz, um unser Modell zu trainieren, das dann mit bestehenden weit verbreiteten Detektoren verglichen wird. Unser Ansatz verbessert nicht nur die Transparenz und Anpassungsfähigkeit, sondern erleichtert auch eine bessere Feinabstimmung für spezifische Anwendungsfälle. Diese Arbeit trägt zu einem robusten Rahmen für die Entwicklung von Modellen zur Erkennung von toxischen Inhalten bei, wobei Offenheit und Anpassungsfähigkeit betont werden und somit den Weg für effektivere und benutzerspezifische Lösungen zur Inhaltsmoderation ebnet.
English
Existing toxic detection models face significant limitations, such as lack of
transparency, customization, and reproducibility. These challenges stem from
the closed-source nature of their training data and the paucity of explanations
for their evaluation mechanism. To address these issues, we propose a dataset
creation mechanism that integrates voting and chain-of-thought processes,
producing a high-quality open-source dataset for toxic content detection. Our
methodology ensures diverse classification metrics for each sample and includes
both classification scores and explanatory reasoning for the classifications.
We utilize the dataset created through our proposed mechanism to train our
model, which is then compared against existing widely-used detectors. Our
approach not only enhances transparency and customizability but also
facilitates better fine-tuning for specific use cases. This work contributes a
robust framework for developing toxic content detection models, emphasizing
openness and adaptability, thus paving the way for more effective and
user-specific content moderation solutions.Summary
AI-Generated Summary