Un Conjunto de Datos a Gran Escala para el Aprendizaje de Representaciones Audio-Lingüísticas
A Large-scale Dataset for Audio-Language Representation Learning
September 20, 2023
Autores: Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
cs.AI
Resumen
La comunidad de IA ha logrado avances significativos en el desarrollo de modelos base potentes, impulsados por conjuntos de datos multimodales a gran escala. Sin embargo, en la comunidad de aprendizaje de representaciones de audio, los actuales conjuntos de datos de audio y lenguaje presentan limitaciones como volumen insuficiente, contenido simplista y procedimientos de recopilación laboriosos. Para abordar estos desafíos, presentamos una innovadora y automática pipeline de generación de subtítulos de audio basada en una serie de herramientas o APIs públicas, y construimos un conjunto de datos de audio y lenguaje a gran escala y de alta calidad, denominado Auto-ACD, que comprende más de 1.9 millones de pares de audio-texto. Para demostrar la efectividad del conjunto de datos propuesto, entrenamos modelos populares en nuestro conjunto de datos y mostramos mejoras en el rendimiento en varias tareas posteriores, como la recuperación de audio-lenguaje, la generación de subtítulos de audio y la clasificación de entornos. Además, establecemos un nuevo conjunto de pruebas y proporcionamos un punto de referencia para tareas de audio-texto. El conjunto de datos propuesto se publicará en https://auto-acd.github.io/.
English
The AI community has made significant strides in developing powerful
foundation models, driven by large-scale multimodal datasets. However, in the
audio representation learning community, the present audio-language datasets
suffer from limitations such as insufficient volume, simplistic content, and
arduous collection procedures. To tackle these challenges, we present an
innovative and automatic audio caption generation pipeline based on a series of
public tools or APIs, and construct a large-scale, high-quality, audio-language
dataset, named as Auto-ACD, comprising over 1.9M audio-text pairs. To
demonstrate the effectiveness of the proposed dataset, we train popular models
on our dataset and show performance improvement on various downstream tasks,
namely, audio-language retrieval, audio captioning, environment classification.
In addition, we establish a novel test set and provide a benchmark for
audio-text tasks. The proposed dataset will be released at
https://auto-acd.github.io/.