Hacia la Detección de Abuso de Audio Multilingüe en Entornos de Recursos Limitados con Aprendizaje de Pocas Muestras
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning
December 2, 2024
Autores: Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi
cs.AI
Resumen
La detección de contenido abusivo en línea, especialmente en entornos con recursos limitados y dentro de la modalidad de audio, sigue siendo poco explorada. Investigamos el potencial de representaciones de audio pre-entrenadas para detectar lenguaje abusivo en idiomas con recursos limitados, en este caso, en idiomas indios utilizando Aprendizaje con Pocas Muestras (FSL). Aprovechando representaciones potentes de modelos como Wav2Vec y Whisper, exploramos la detección de abuso entre idiomas mediante el conjunto de datos ADIMA con FSL. Nuestro enfoque integra estas representaciones dentro del marco de Aprendizaje Meta-Agnóstico de Modelos (MAML) para clasificar lenguaje abusivo en 10 idiomas. Experimentamos con varios tamaños de muestra (50-200) evaluando el impacto de datos limitados en el rendimiento. Además, se realizó un estudio de visualización de características para comprender mejor el comportamiento del modelo. Este estudio destaca la capacidad de generalización de los modelos pre-entrenados en escenarios con recursos limitados y ofrece ideas valiosas para detectar lenguaje abusivo en contextos multilingües.
English
Online abusive content detection, particularly in low-resource settings and
within the audio modality, remains underexplored. We investigate the potential
of pre-trained audio representations for detecting abusive language in
low-resource languages, in this case, in Indian languages using Few Shot
Learning (FSL). Leveraging powerful representations from models such as Wav2Vec
and Whisper, we explore cross-lingual abuse detection using the ADIMA dataset
with FSL. Our approach integrates these representations within the
Model-Agnostic Meta-Learning (MAML) framework to classify abusive language in
10 languages. We experiment with various shot sizes (50-200) evaluating the
impact of limited data on performance. Additionally, a feature visualization
study was conducted to better understand model behaviour. This study highlights
the generalization ability of pre-trained models in low-resource scenarios and
offers valuable insights into detecting abusive language in multilingual
contexts.Summary
AI-Generated Summary