ToVo: 투표를 통한 유해성 분류 체계
ToVo: Toxicity Taxonomy via Voting
June 21, 2024
저자: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen
cs.AI
초록
기존의 유해 콘텐츠 탐지 모델은 투명성, 맞춤화, 재현성의 부족과 같은 상당한 한계에 직면해 있습니다. 이러한 문제는 훈련 데이터의 폐쇄적 특성과 평가 메커니즘에 대한 설명의 부족에서 비롯됩니다. 이러한 문제를 해결하기 위해, 우리는 투표와 사고 사슬(chain-of-thought) 과정을 통합한 데이터셋 생성 메커니즘을 제안하여, 유해 콘텐츠 탐지를 위한 고품질의 오픈소스 데이터셋을 생성합니다. 우리의 방법론은 각 샘플에 대해 다양한 분류 지표를 보장하며, 분류 점수와 분류에 대한 설명적 추론을 모두 포함합니다.
우리는 제안된 메커니즘을 통해 생성된 데이터셋을 활용하여 모델을 훈련시키고, 이를 기존에 널리 사용되는 탐지기와 비교합니다. 우리의 접근 방식은 투명성과 맞춤화를 향상시킬 뿐만 아니라, 특정 사용 사례에 대한 더 나은 미세 조정을 가능하게 합니다. 이 연구는 개방성과 적응성을 강조하며, 유해 콘텐츠 탐지 모델 개발을 위한 견고한 프레임워크를 제공함으로써, 더 효과적이고 사용자 맞춤형 콘텐츠 조정 솔루션을 위한 길을 열어줍니다.
English
Existing toxic detection models face significant limitations, such as lack of
transparency, customization, and reproducibility. These challenges stem from
the closed-source nature of their training data and the paucity of explanations
for their evaluation mechanism. To address these issues, we propose a dataset
creation mechanism that integrates voting and chain-of-thought processes,
producing a high-quality open-source dataset for toxic content detection. Our
methodology ensures diverse classification metrics for each sample and includes
both classification scores and explanatory reasoning for the classifications.
We utilize the dataset created through our proposed mechanism to train our
model, which is then compared against existing widely-used detectors. Our
approach not only enhances transparency and customizability but also
facilitates better fine-tuning for specific use cases. This work contributes a
robust framework for developing toxic content detection models, emphasizing
openness and adaptability, thus paving the way for more effective and
user-specific content moderation solutions.Summary
AI-Generated Summary