低リソース環境におけるクロスリンガルなオーディオ乱用検出に向けて、フューショット学習を用いる
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning
December 2, 2024
著者: Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi
cs.AI
要旨
オンラインでの悪意のあるコンテンツの検出は、特にリソースが限られている状況や音声モダリティ内での検出は、未だに未開拓の領域です。私たちは、インドの言語、具体的には少数のデータで学習するFew Shot Learning(FSL)を用いて、事前学習された音声表現の潜在能力を調査します。Wav2VecやWhisperなどのモデルからの強力な表現を活用し、ADIMAデータセットを用いてFSLを用いたクロスリンガルな悪意の検出を探求します。私たちのアプローチは、これらの表現をModel-Agnostic Meta-Learning(MAML)フレームワークに統合し、10言語で悪意のある言語を分類します。我々は、限られたデータが性能に与える影響を評価するために、さまざまなショットサイズ(50-200)で実験を行いました。さらに、モデルの振る舞いをよりよく理解するために、特徴の可視化研究が行われました。この研究は、リソースが限られた状況での事前学習モデルの汎化能力を示し、多言語環境での悪意のある言語の検出に関する貴重な示唆を提供しています。
English
Online abusive content detection, particularly in low-resource settings and
within the audio modality, remains underexplored. We investigate the potential
of pre-trained audio representations for detecting abusive language in
low-resource languages, in this case, in Indian languages using Few Shot
Learning (FSL). Leveraging powerful representations from models such as Wav2Vec
and Whisper, we explore cross-lingual abuse detection using the ADIMA dataset
with FSL. Our approach integrates these representations within the
Model-Agnostic Meta-Learning (MAML) framework to classify abusive language in
10 languages. We experiment with various shot sizes (50-200) evaluating the
impact of limited data on performance. Additionally, a feature visualization
study was conducted to better understand model behaviour. This study highlights
the generalization ability of pre-trained models in low-resource scenarios and
offers valuable insights into detecting abusive language in multilingual
contexts.Summary
AI-Generated Summary