大規模言語モデルの事前学習における多言語監督の効果向上
Cross-Lingual Supervision improves Large Language Models Pre-training
May 19, 2023
著者: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI
要旨
近年の大規模言語モデルの事前学習における急速な進展は、次のトークン予測やスパン破損といった自己教師あり言語モデリング目的関数の使用に依存してきました。一方で、機械翻訳システムの訓練は主に、ソース言語とターゲット言語間の整列データを必要とするクロスリンガルな教師あり学習によって行われています。本研究では、自己教師あり言語モデリング目的関数と教師あり機械翻訳目的関数を混合し、事前学習中にクロスリンガルな並列データを含めることで、文脈内学習能力が向上したモデルが得られることを実証します。事前学習は非常にリソース集約的なプロセスであり、両目的関数間の最適な混合比率をグリッドサーチで探索することは現実的ではありません。そこで、事前学習中にこの混合比率を学習するためのシンプルかつ効果的な戦略を提案します。
English
The recent rapid progress in pre-training Large Language Models has relied on
using self-supervised language modeling objectives like next token prediction
or span corruption. On the other hand, Machine Translation Systems are mostly
trained using cross-lingual supervision that requires aligned data between
source and target languages. We demonstrate that pre-training Large Language
Models on a mixture of a self-supervised Language Modeling objective and the
supervised Machine Translation objective, therefore including cross-lingual
parallel data during pre-training, yields models with better in-context
learning abilities. As pre-training is a very resource-intensive process and a
grid search on the best mixing ratio between the two objectives is
prohibitively expensive, we propose a simple yet effective strategy to learn it
during pre-training.