ToVo: 投票による毒性分類
ToVo: Toxicity Taxonomy via Voting
June 21, 2024
著者: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen
cs.AI
要旨
既存の有害コンテンツ検出モデルは、透明性の欠如、カスタマイズ性の不足、再現性の低さといった重大な制約に直面しています。これらの課題は、学習データのクローズドソース性や評価メカニズムの説明不足に起因しています。これらの問題に対処するため、我々は投票プロセスと連鎖的思考プロセスを統合したデータセット作成メカニズムを提案し、高品質なオープンソースの有害コンテンツ検出用データセットを生成します。我々の方法論は、各サンプルに対して多様な分類指標を確保し、分類スコアと分類の説明的推論の両方を含むことを保証します。
提案したメカニズムを通じて作成されたデータセットを活用してモデルを訓練し、既存の広く使用されている検出器と比較します。我々のアプローチは、透明性とカスタマイズ性を向上させるだけでなく、特定のユースケースに対するより良いファインチューニングを可能にします。この研究は、オープン性と適応性を重視した有害コンテンツ検出モデル開発のための堅牢なフレームワークを提供し、より効果的でユーザー固有のコンテンツモデレーションソリューションへの道を開くものです。
English
Existing toxic detection models face significant limitations, such as lack of
transparency, customization, and reproducibility. These challenges stem from
the closed-source nature of their training data and the paucity of explanations
for their evaluation mechanism. To address these issues, we propose a dataset
creation mechanism that integrates voting and chain-of-thought processes,
producing a high-quality open-source dataset for toxic content detection. Our
methodology ensures diverse classification metrics for each sample and includes
both classification scores and explanatory reasoning for the classifications.
We utilize the dataset created through our proposed mechanism to train our
model, which is then compared against existing widely-used detectors. Our
approach not only enhances transparency and customizability but also
facilitates better fine-tuning for specific use cases. This work contributes a
robust framework for developing toxic content detection models, emphasizing
openness and adaptability, thus paving the way for more effective and
user-specific content moderation solutions.Summary
AI-Generated Summary