ChatPaper.aiChatPaper

WhisBERT: Modelagem de Linguagem Multimodal Texto-Áudio em 100 Milhões de Palavras

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

December 5, 2023
Autores: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI

Resumo

O treinamento em múltiplas modalidades de entrada pode ampliar as capacidades de um modelo de linguagem. Aqui, investigamos se tal regime de treinamento pode também melhorar a qualidade e a eficiência desses sistemas. Focamos na modalidade texto-áudio e introduzimos o Whisbert, que é inspirado na abordagem texto-imagem do FLAVA (singh_flava_2022). Em conformidade com as diretrizes do Babylm (warstadt2023papers), pré-treinamos o Whisbert em um conjunto de dados composto por apenas 100 milhões de palavras, além de suas correspondentes gravações de áudio da versão alinhada por palavras do conjunto de dados People's Speech (galvez_peoples_2021). Para avaliar o impacto da multimodalidade, comparamos versões do modelo que são treinadas apenas com texto e com áudio e texto simultaneamente. Descobrimos que, embora o Whisbert seja capaz de desempenhar bem na modelagem mascarada multimodal e supere as linhas de base do Babylm na maioria das tarefas de benchmark, ele enfrenta dificuldades para otimizar seu objetivo complexo e superar sua linha de base Whisbert treinada apenas com texto.
English
Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA singh_flava_2022. In accordance with Babylm warstadt2023papers guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset galvez_peoples_2021. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
PDF81February 7, 2026