ChatPaper.aiChatPaper

WhisBERT: Мультимодальное моделирование языка на основе текста и аудио на 100 миллионах слов

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

December 5, 2023
Авторы: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI

Аннотация

Обучение на множестве модальностей входных данных может расширить возможности языковой модели. В данной работе мы исследуем, может ли такой режим обучения также улучшить качество и эффективность этих систем. Мы сосредоточиваемся на текстово-аудиальных данных и представляем Whisbert, вдохновленный подходом к текстово-изображениям, предложенным в FLAVA (singh_flava_2022). В соответствии с рекомендациями Babylm (warstadt2023papers), мы предварительно обучаем Whisbert на наборе данных, состоящем всего из 100 миллионов слов и их соответствующих аудиозаписей из версии People's Speech с выравниванием по словам (galvez_peoples_2021). Чтобы оценить влияние мультимодальности, мы сравниваем версии модели, обученные только на тексте и одновременно на аудио и тексте. Мы обнаруживаем, что, хотя Whisbert демонстрирует хорошие результаты в мультимодальном маскированном моделировании и превосходит базовые показатели Babylm в большинстве тестовых задач, он испытывает трудности с оптимизацией своей сложной целевой функции и не превосходит свою текстовую версию Whisbert.
English
Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA singh_flava_2022. In accordance with Babylm warstadt2023papers guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset galvez_peoples_2021. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
PDF91December 15, 2024