ChatPaper.aiChatPaper

WhisBERT: Multimodale Tekst-Audio Taalmodellering op 100 Miljoen Woorden

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

December 5, 2023
Auteurs: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI

Samenvatting

Training op meerdere modaliteiten van invoer kan de mogelijkheden van een taalmodel vergroten. Hier onderzoeken we of een dergelijk trainingsregime ook de kwaliteit en efficiëntie van deze systemen kan verbeteren. We richten ons op tekst--audio en introduceren Whisbert, dat geïnspireerd is op de tekst--beeldbenadering van FLAVA singh_flava_2022. In overeenstemming met de richtlijnen van Babylm warstadt2023papers pretrainen we Whisbert op een dataset die slechts 100 miljoen woorden bevat, plus de bijbehorende spraak uit de woord-uitgelijnde versie van de People's Speech dataset galvez_peoples_2021. Om de impact van multimodaliteit te beoordelen, vergelijken we versies van het model die alleen op tekst zijn getraind en op zowel audio als tekst tegelijkertijd. We constateren dat Whisbert goed presteert op multimodale gemaskeerde modellering en de Babylm-baselines in de meeste benchmarktaken overtreft, maar moeite heeft om zijn complexe doelstelling te optimaliseren en zijn tekst-only Whisbert-baseline te overtreffen.
English
Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA singh_flava_2022. In accordance with Babylm warstadt2023papers guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset galvez_peoples_2021. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
PDF81February 7, 2026