Dissecando o Aprendizado In-Context de Traduções em GPTs
Dissecting In-Context Learning of Translations in GPTs
October 24, 2023
Autores: Vikas Raunak, Hany Hassan Awadalla, Arul Menezes
cs.AI
Resumo
A maior parte do trabalho recente em aproveitar Modelos de Linguagem de Grande Escala (LLMs), como o GPT-3, para Tradução Automática (MT) tem se concentrado na seleção de exemplos few-shot para prompting. Neste trabalho, buscamos compreender melhor o papel dos atributos de demonstração para o aprendizado in-context de traduções por meio de perturbações de demonstrações de alta qualidade e dentro do domínio. Descobrimos que perturbações assimétricas dos mapeamentos fonte-alvo produzem resultados bastante diferentes. Mostramos que a perturbação do lado da fonte tem, surpreendentemente, pouco impacto, enquanto a perturbação do lado do alvo pode reduzir drasticamente a qualidade da tradução, sugerindo que é a distribuição do texto de saída que fornece o sinal de aprendizado mais importante durante o aprendizado in-context de traduções. Propomos um método chamado Zero-Shot-Context para adicionar esse sinal automaticamente em prompts zero-shot. Demonstramos que ele melhora o desempenho de tradução zero-shot do GPT-3, tornando-o até mesmo competitivo com traduções baseadas em prompts few-shot.
English
Most of the recent work in leveraging Large Language Models (LLMs) such as
GPT-3 for Machine Translation (MT) has focused on selecting the few-shot
samples for prompting. In this work, we try to better understand the role of
demonstration attributes for the in-context learning of translations through
perturbations of high-quality, in-domain demonstrations. We find that
asymmetric perturbation of the source-target mappings yield vastly different
results. We show that the perturbation of the source side has surprisingly
little impact, while target perturbation can drastically reduce translation
quality, suggesting that it is the output text distribution that provides the
most important learning signal during in-context learning of translations. We
propose a method named Zero-Shot-Context to add this signal automatically in
Zero-Shot prompting. We demonstrate that it improves upon the zero-shot
translation performance of GPT-3, even making it competitive with few-shot
prompted translations.