GPTにおける翻訳のインコンテキスト学習の解明
Dissecting In-Context Learning of Translations in GPTs
October 24, 2023
著者: Vikas Raunak, Hany Hassan Awadalla, Arul Menezes
cs.AI
要旨
近年、GPT-3のような大規模言語モデル(LLM)を機械翻訳(MT)に活用する研究の多くは、few-shotサンプルの選択とプロンプティングに焦点を当ててきました。本研究では、高品質でドメイン内のデモンストレーションに対する摂動を通じて、翻訳におけるインコンテキスト学習のためのデモンストレーション属性の役割をより深く理解しようと試みます。その結果、ソースとターゲットのマッピングに対する非対称的な摂動が大きく異なる結果をもたらすことがわかりました。ソース側の摂動は驚くほど影響が少ないのに対し、ターゲット側の摂動は翻訳品質を劇的に低下させることが示されました。これは、インコンテキスト学習において、出力テキストの分布が最も重要な学習信号を提供していることを示唆しています。我々は、この信号をゼロショットプロンプティングに自動的に追加する「Zero-Shot-Context」という手法を提案します。この手法がGPT-3のゼロショット翻訳性能を向上させ、few-shotプロンプティングによる翻訳と競合するレベルにまで到達することを実証します。
English
Most of the recent work in leveraging Large Language Models (LLMs) such as
GPT-3 for Machine Translation (MT) has focused on selecting the few-shot
samples for prompting. In this work, we try to better understand the role of
demonstration attributes for the in-context learning of translations through
perturbations of high-quality, in-domain demonstrations. We find that
asymmetric perturbation of the source-target mappings yield vastly different
results. We show that the perturbation of the source side has surprisingly
little impact, while target perturbation can drastically reduce translation
quality, suggesting that it is the output text distribution that provides the
most important learning signal during in-context learning of translations. We
propose a method named Zero-Shot-Context to add this signal automatically in
Zero-Shot prompting. We demonstrate that it improves upon the zero-shot
translation performance of GPT-3, even making it competitive with few-shot
prompted translations.