WhisBERT: Multimodale Text-Audio-Sprachmodellierung auf 100 Millionen Wörtern
WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words
December 5, 2023
Autoren: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI
Zusammenfassung
Das Training mit mehreren Eingabemodalitäten kann die Fähigkeiten eines Sprachmodells erweitern. Hier untersuchen wir, ob ein solches Trainingsregime auch die Qualität und Effizienz dieser Systeme verbessern kann. Wir konzentrieren uns auf Text-Audio und stellen Whisbert vor, das vom Text-Bild-Ansatz von FLAVA (singh_flava_2022) inspiriert ist. In Übereinstimmung mit den Richtlinien von Babylm (warstadt2023papers) pretrainieren wir Whisbert auf einem Datensatz, der nur 100 Millionen Wörter sowie die entsprechenden Sprachaufnahmen aus der wortausgerichteten Version des People's Speech-Datensatzes (galvez_peoples_2021) umfasst. Um die Auswirkungen von Multimodalität zu bewerten, vergleichen wir Versionen des Modells, die entweder nur auf Text oder gleichzeitig auf Audio und Text trainiert werden. Wir stellen fest, dass Whisbert zwar gut auf multimodales Masked Modeling abschneidet und die Babylm-Baselines in den meisten Benchmark-Aufgaben übertrifft, es jedoch Schwierigkeiten hat, sein komplexes Ziel zu optimieren und seine textbasierte Whisbert-Baseline zu übertreffen.
English
Training on multiple modalities of input can augment the capabilities of a
language model. Here, we ask whether such a training regime can improve the
quality and efficiency of these systems as well. We focus on text--audio and
introduce Whisbert, which is inspired by the text--image approach of FLAVA
singh_flava_2022. In accordance with Babylm warstadt2023papers
guidelines, we pretrain Whisbert on a dataset comprising only 100 million words
plus their corresponding speech from the word-aligned version of the People's
Speech dataset galvez_peoples_2021. To assess the impact of
multimodality, we compare versions of the model that are trained on text only
and on both audio and text simultaneously. We find that while Whisbert is able
to perform well on multimodal masked modeling and surpasses the Babylm
baselines in most benchmark tasks, it struggles to optimize its complex
objective and outperform its text-only Whisbert baseline.