Анализ контекстного обучения переводам в GPT
Dissecting In-Context Learning of Translations in GPTs
October 24, 2023
Авторы: Vikas Raunak, Hany Hassan Awadalla, Arul Menezes
cs.AI
Аннотация
Большинство недавних исследований, посвященных использованию крупных языковых моделей (LLM), таких как GPT-3, для машинного перевода (MT), сосредоточены на выборе примеров для немедленного обучения (few-shot prompting). В данной работе мы стремимся глубже понять роль атрибутов демонстраций для обучения переводам в контексте (in-context learning) путем внесения изменений в высококачественные, тематически релевантные примеры. Мы обнаруживаем, что асимметричное изменение соответствий между исходным и целевым текстами приводит к существенно разным результатам. Мы показываем, что изменение исходного текста оказывает удивительно малое влияние, в то время как изменение целевого текста может значительно снизить качество перевода, что указывает на то, что именно распределение выходного текста предоставляет наиболее важный сигнал для обучения в контексте перевода. Мы предлагаем метод под названием Zero-Shot-Context, который автоматически добавляет этот сигнал в запросы без примеров (zero-shot prompting). Мы демонстрируем, что этот метод улучшает качество перевода GPT-3 в режиме zero-shot, делая его конкурентоспособным даже с переводами, выполненными с использованием few-shot prompting.
English
Most of the recent work in leveraging Large Language Models (LLMs) such as
GPT-3 for Machine Translation (MT) has focused on selecting the few-shot
samples for prompting. In this work, we try to better understand the role of
demonstration attributes for the in-context learning of translations through
perturbations of high-quality, in-domain demonstrations. We find that
asymmetric perturbation of the source-target mappings yield vastly different
results. We show that the perturbation of the source side has surprisingly
little impact, while target perturbation can drastically reduce translation
quality, suggesting that it is the output text distribution that provides the
most important learning signal during in-context learning of translations. We
propose a method named Zero-Shot-Context to add this signal automatically in
Zero-Shot prompting. We demonstrate that it improves upon the zero-shot
translation performance of GPT-3, even making it competitive with few-shot
prompted translations.