ChatPaper.aiChatPaper

WhisBERT: Modelado de Lenguaje Multimodal Texto-Audio en 100 Millones de Palabras

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

December 5, 2023
Autores: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI

Resumen

El entrenamiento con múltiples modalidades de entrada puede ampliar las capacidades de un modelo de lenguaje. Aquí, nos preguntamos si dicho régimen de entrenamiento también puede mejorar la calidad y eficiencia de estos sistemas. Nos enfocamos en texto-audio e introducimos Whisbert, que está inspirado en el enfoque texto-imagen de FLAVA (singh_flava_2022). Siguiendo las pautas de Babylm (warstadt2023papers), preentrenamos Whisbert en un conjunto de datos que comprende solo 100 millones de palabras junto con su habla correspondiente, extraída de la versión alineada por palabras del conjunto de datos People's Speech (galvez_peoples_2021). Para evaluar el impacto de la multimodalidad, comparamos versiones del modelo que se entrenan únicamente con texto y con audio y texto simultáneamente. Descubrimos que, aunque Whisbert es capaz de desempeñarse bien en el modelado enmascarado multimodal y supera los puntos de referencia de Babylm en la mayoría de las tareas de evaluación, tiene dificultades para optimizar su objetivo complejo y superar su línea base de Whisbert entrenado solo con texto.
English
Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA singh_flava_2022. In accordance with Babylm warstadt2023papers guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset galvez_peoples_2021. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
PDF91December 15, 2024