ChatPaper.aiChatPaper

WhisBERT: Modellazione Linguistica Multimodale Testo-Audio su 100 Milioni di Parole

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

December 5, 2023
Autori: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI

Abstract

L'addestramento su più modalità di input può potenziare le capacità di un modello linguistico. In questo lavoro, ci chiediamo se un tale regime di addestramento possa anche migliorare la qualità e l'efficienza di questi sistemi. Ci concentriamo sulla combinazione testo-audio e introduciamo Whisbert, ispirato dall'approccio testo-immagine di FLAVA (singh_flava_2022). In conformità con le linee guida di Babylm (warstadt2023papers), pre-addestriamo Whisbert su un dataset composto da soli 100 milioni di parole, più i corrispondenti segmenti audio tratti dalla versione allineata delle parole del dataset People's Speech (galvez_peoples_2021). Per valutare l'impatto della multimodalità, confrontiamo versioni del modello addestrate solo su testo e su entrambe le modalità audio e testo simultaneamente. Scopriamo che, sebbene Whisbert sia in grado di ottenere buoni risultati nel masked modeling multimodale e superi i benchmark di Babylm nella maggior parte dei task, fatica a ottimizzare il suo obiettivo complesso e a superare la sua baseline Whisbert addestrata solo su testo.
English
Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA singh_flava_2022. In accordance with Babylm warstadt2023papers guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset galvez_peoples_2021. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
PDF81February 7, 2026