ToVo: Токсичная таксономия через голосование

Аннотация

Существующие модели обнаружения токсичности сталкиваются с значительными ограничениями, такими как недостаток прозрачности, настройки и воспроизводимости. Эти вызовы происходят из закрытого характера их обучающих данных и недостатка объяснений для механизма оценки. Для решения этих проблем мы предлагаем механизм создания набора данных, который интегрирует голосование и процессы цепочки мыслей, создавая высококачественный открытый набор данных для обнаружения токсичного контента. Наша методология обеспечивает разнообразные метрики классификации для каждого образца и включает как оценочные баллы, так и объяснительное обоснование для классификаций. Мы используем набор данных, созданный с помощью нашего предложенного механизма, для обучения нашей модели, которая затем сравнивается с существующими широко используемыми детекторами. Наш подход не только улучшает прозрачность и настраиваемость, но также облегчает лучшую настройку для конкретных случаев использования. Эта работа вносит существенный вклад в разработку моделей обнаружения токсичного контента, акцентируя открытость и адаптивность, тем самым укладывая дорогу для более эффективных и индивидуально ориентированных решений по модерации контента.

English

Existing toxic detection models face significant limitations, such as lack of transparency, customization, and reproducibility. These challenges stem from the closed-source nature of their training data and the paucity of explanations for their evaluation mechanism. To address these issues, we propose a dataset creation mechanism that integrates voting and chain-of-thought processes, producing a high-quality open-source dataset for toxic content detection. Our methodology ensures diverse classification metrics for each sample and includes both classification scores and explanatory reasoning for the classifications. We utilize the dataset created through our proposed mechanism to train our model, which is then compared against existing widely-used detectors. Our approach not only enhances transparency and customizability but also facilitates better fine-tuning for specific use cases. This work contributes a robust framework for developing toxic content detection models, emphasizing openness and adaptability, thus paving the way for more effective and user-specific content moderation solutions.

ToVo: Токсичная таксономия через голосование

ToVo: Toxicity Taxonomy via Voting

Аннотация

Support