ChatPaper.aiChatPaper

WhisBERT : Modélisation linguistique multimodale texte-audio sur 100 millions de mots

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

December 5, 2023
Auteurs: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI

Résumé

L'entraînement sur plusieurs modalités d'entrée peut augmenter les capacités d'un modèle de langage. Ici, nous nous demandons si un tel régime d'entraînement peut également améliorer la qualité et l'efficacité de ces systèmes. Nous nous concentrons sur la modalité texte--audio et introduisons Whisbert, qui s'inspire de l'approche texte--image de FLAVA (singh_flava_2022). Conformément aux directives de Babylm (warstadt2023papers), nous pré-entraînons Whisbert sur un ensemble de données comprenant seulement 100 millions de mots ainsi que leurs enregistrements audio correspondants, issus de la version alignée mot par mot du jeu de données People's Speech (galvez_peoples_2021). Pour évaluer l'impact de la multimodalité, nous comparons des versions du modèle entraînées uniquement sur le texte et sur l'audio et le texte simultanément. Nous constatons que bien que Whisbert soit capable de bien performer sur la modélisation masquée multimodale et dépasse les références de Babylm dans la plupart des tâches de benchmark, il peine à optimiser son objectif complexe et à surpasser sa version texte uniquement de Whisbert.
English
Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA singh_flava_2022. In accordance with Babylm warstadt2023papers guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset galvez_peoples_2021. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
PDF91December 15, 2024