ToVo: Токсичная таксономия через голосование
ToVo: Toxicity Taxonomy via Voting
June 21, 2024
Авторы: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen
cs.AI
Аннотация
Существующие модели обнаружения токсичности сталкиваются с значительными ограничениями, такими как недостаток прозрачности, настройки и воспроизводимости. Эти вызовы происходят из закрытого характера их обучающих данных и недостатка объяснений для механизма оценки. Для решения этих проблем мы предлагаем механизм создания набора данных, который интегрирует голосование и процессы цепочки мыслей, создавая высококачественный открытый набор данных для обнаружения токсичного контента. Наша методология обеспечивает разнообразные метрики классификации для каждого образца и включает как оценочные баллы, так и объяснительное обоснование для классификаций.
Мы используем набор данных, созданный с помощью нашего предложенного механизма, для обучения нашей модели, которая затем сравнивается с существующими широко используемыми детекторами. Наш подход не только улучшает прозрачность и настраиваемость, но также облегчает лучшую настройку для конкретных случаев использования. Эта работа вносит существенный вклад в разработку моделей обнаружения токсичного контента, акцентируя открытость и адаптивность, тем самым укладывая дорогу для более эффективных и индивидуально ориентированных решений по модерации контента.
English
Existing toxic detection models face significant limitations, such as lack of
transparency, customization, and reproducibility. These challenges stem from
the closed-source nature of their training data and the paucity of explanations
for their evaluation mechanism. To address these issues, we propose a dataset
creation mechanism that integrates voting and chain-of-thought processes,
producing a high-quality open-source dataset for toxic content detection. Our
methodology ensures diverse classification metrics for each sample and includes
both classification scores and explanatory reasoning for the classifications.
We utilize the dataset created through our proposed mechanism to train our
model, which is then compared against existing widely-used detectors. Our
approach not only enhances transparency and customizability but also
facilitates better fine-tuning for specific use cases. This work contributes a
robust framework for developing toxic content detection models, emphasizing
openness and adaptability, thus paving the way for more effective and
user-specific content moderation solutions.Summary
AI-Generated Summary