Analyse de l'apprentissage en contexte des traductions dans les GPT
Dissecting In-Context Learning of Translations in GPTs
October 24, 2023
Auteurs: Vikas Raunak, Hany Hassan Awadalla, Arul Menezes
cs.AI
Résumé
La plupart des travaux récents sur l'utilisation des grands modèles de langage (LLMs) tels que GPT-3 pour la traduction automatique (MT) se sont concentrés sur la sélection des exemples few-shot pour le prompting. Dans cette étude, nous cherchons à mieux comprendre le rôle des attributs des démonstrations dans l'apprentissage en contexte des traductions, à travers des perturbations de démonstrations de haute qualité et spécifiques au domaine. Nous constatons que les perturbations asymétriques des correspondances source-cible produisent des résultats très différents. Nous montrons que la perturbation du côté source a un impact étonnamment faible, tandis que la perturbation de la cible peut réduire considérablement la qualité de la traduction, suggérant que c'est la distribution du texte de sortie qui fournit le signal d'apprentissage le plus important lors de l'apprentissage en contexte des traductions. Nous proposons une méthode nommée Zero-Shot-Context pour ajouter automatiquement ce signal dans le prompting zero-shot. Nous démontrons qu'elle améliore les performances de traduction zero-shot de GPT-3, la rendant même compétitive par rapport aux traductions obtenues par prompting few-shot.
English
Most of the recent work in leveraging Large Language Models (LLMs) such as
GPT-3 for Machine Translation (MT) has focused on selecting the few-shot
samples for prompting. In this work, we try to better understand the role of
demonstration attributes for the in-context learning of translations through
perturbations of high-quality, in-domain demonstrations. We find that
asymmetric perturbation of the source-target mappings yield vastly different
results. We show that the perturbation of the source side has surprisingly
little impact, while target perturbation can drastically reduce translation
quality, suggesting that it is the output text distribution that provides the
most important learning signal during in-context learning of translations. We
propose a method named Zero-Shot-Context to add this signal automatically in
Zero-Shot prompting. We demonstrate that it improves upon the zero-shot
translation performance of GPT-3, even making it competitive with few-shot
prompted translations.