ToVo: Taxonomie der Toxizität durch Abstimmung

papers.abstract

Bestehende Modelle zur Erkennung von toxischen Inhalten stoßen auf erhebliche Einschränkungen, wie beispielsweise mangelnde Transparenz, Anpassungsfähigkeit und Reproduzierbarkeit. Diese Herausforderungen resultieren aus dem Closed-Source-Charakter ihrer Trainingsdaten und dem Mangel an Erklärungen für ihren Bewertungsmechanismus. Um diesen Problemen zu begegnen, schlagen wir einen Mechanismus zur Erstellung von Datensätzen vor, der Abstimmung und Ketten-Denkvorgänge integriert und einen hochwertigen Open-Source-Datensatz für die Erkennung von toxischen Inhalten erzeugt. Unsere Methodik gewährleistet vielfältige Klassifizierungsmetriken für jedes Beispiel und beinhaltet sowohl Klassifizierungswerte als auch erläuternde Begründungen für die Klassifizierungen. Wir nutzen den durch unseren vorgeschlagenen Mechanismus erstellten Datensatz, um unser Modell zu trainieren, das dann mit bestehenden weit verbreiteten Detektoren verglichen wird. Unser Ansatz verbessert nicht nur die Transparenz und Anpassungsfähigkeit, sondern erleichtert auch eine bessere Feinabstimmung für spezifische Anwendungsfälle. Diese Arbeit trägt zu einem robusten Rahmen für die Entwicklung von Modellen zur Erkennung von toxischen Inhalten bei, wobei Offenheit und Anpassungsfähigkeit betont werden und somit den Weg für effektivere und benutzerspezifische Lösungen zur Inhaltsmoderation ebnet.

English

Existing toxic detection models face significant limitations, such as lack of transparency, customization, and reproducibility. These challenges stem from the closed-source nature of their training data and the paucity of explanations for their evaluation mechanism. To address these issues, we propose a dataset creation mechanism that integrates voting and chain-of-thought processes, producing a high-quality open-source dataset for toxic content detection. Our methodology ensures diverse classification metrics for each sample and includes both classification scores and explanatory reasoning for the classifications. We utilize the dataset created through our proposed mechanism to train our model, which is then compared against existing widely-used detectors. Our approach not only enhances transparency and customizability but also facilitates better fine-tuning for specific use cases. This work contributes a robust framework for developing toxic content detection models, emphasizing openness and adaptability, thus paving the way for more effective and user-specific content moderation solutions.

ToVo: Taxonomie der Toxizität durch Abstimmung

ToVo: Toxicity Taxonomy via Voting

papers.abstract

Support