Analisi dell'Apprendimento In-Contesto delle Traduzioni nei GPT
Dissecting In-Context Learning of Translations in GPTs
October 24, 2023
Autori: Vikas Raunak, Hany Hassan Awadalla, Arul Menezes
cs.AI
Abstract
La maggior parte dei lavori recenti sull'utilizzo di Large Language Models (LLM) come GPT-3 per la Traduzione Automatica (MT) si è concentrata sulla selezione di esempi few-shot per il prompting. In questo lavoro, cerchiamo di comprendere meglio il ruolo degli attributi delle dimostrazioni per l'apprendimento in-context delle traduzioni attraverso perturbazioni di dimostrazioni di alta qualità e in dominio. Scopriamo che le perturbazioni asimmetriche delle mappature sorgente-bersaglio producono risultati molto diversi. Mostriamo che la perturbazione del lato sorgente ha un impatto sorprendentemente limitato, mentre la perturbazione del bersaglio può ridurre drasticamente la qualità della traduzione, suggerendo che è la distribuzione del testo di output a fornire il segnale di apprendimento più importante durante l'apprendimento in-context delle traduzioni. Proponiamo un metodo chiamato Zero-Shot-Context per aggiungere automaticamente questo segnale nel prompting zero-shot. Dimostriamo che migliora le prestazioni di traduzione zero-shot di GPT-3, rendendola persino competitiva con le traduzioni ottenute tramite prompting few-shot.
English
Most of the recent work in leveraging Large Language Models (LLMs) such as
GPT-3 for Machine Translation (MT) has focused on selecting the few-shot
samples for prompting. In this work, we try to better understand the role of
demonstration attributes for the in-context learning of translations through
perturbations of high-quality, in-domain demonstrations. We find that
asymmetric perturbation of the source-target mappings yield vastly different
results. We show that the perturbation of the source side has surprisingly
little impact, while target perturbation can drastically reduce translation
quality, suggesting that it is the output text distribution that provides the
most important learning signal during in-context learning of translations. We
propose a method named Zero-Shot-Context to add this signal automatically in
Zero-Shot prompting. We demonstrate that it improves upon the zero-shot
translation performance of GPT-3, even making it competitive with few-shot
prompted translations.