WhisBERT: 1億語にわたるマルチモーダルなテキスト-音声言語モデリング
WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words
December 5, 2023
著者: Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
cs.AI
要旨
複数の入力モダリティを用いたトレーニングは、言語モデルの能力を拡張することができる。ここでは、そのようなトレーニング体制が、これらのシステムの品質と効率を向上させることができるかどうかを検討する。我々はテキストと音声に焦点を当て、FLAVA(singh_flava_2022)のテキストと画像のアプローチにインスパイアされたWhisbertを紹介する。Babylm(warstadt2023papers)のガイドラインに従い、Whisbertを、People's Speechデータセット(galvez_peoples_2021)の単語アライメント版から得られた1億語のテキストとそれに対応する音声のみを含むデータセットで事前学習する。マルチモダリティの影響を評価するために、テキストのみでトレーニングされたモデルと、音声とテキストを同時にトレーニングされたモデルのバージョンを比較する。その結果、Whisbertはマルチモーダルなマスクモデリングで良好な性能を発揮し、ほとんどのベンチマークタスクでBabylmのベースラインを上回るものの、複雑な目的関数を最適化し、テキストのみのWhisbertベースラインを上回ることは困難であることがわかった。
English
Training on multiple modalities of input can augment the capabilities of a
language model. Here, we ask whether such a training regime can improve the
quality and efficiency of these systems as well. We focus on text--audio and
introduce Whisbert, which is inspired by the text--image approach of FLAVA
singh_flava_2022. In accordance with Babylm warstadt2023papers
guidelines, we pretrain Whisbert on a dataset comprising only 100 million words
plus their corresponding speech from the word-aligned version of the People's
Speech dataset galvez_peoples_2021. To assess the impact of
multimodality, we compare versions of the model that are trained on text only
and on both audio and text simultaneously. We find that while Whisbert is able
to perform well on multimodal masked modeling and surpasses the Babylm
baselines in most benchmark tasks, it struggles to optimize its complex
objective and outperform its text-only Whisbert baseline.