ChatPaper.aiChatPaper

À la recherche d'une aiguille dans une botte de foin : Le rôle du bilinguisme incident dans les capacités de traduction de PaLM

Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability

May 17, 2023
Auteurs: Eleftheria Briakou, Colin Cherry, George Foster
cs.AI

Résumé

Les grands modèles de langage multilingues démontrent des capacités de traduction automatique en zero-shot ou few-shot étonnamment bonnes, bien qu'ils n'aient jamais été exposés aux exemples de traduction intentionnellement inclus dans les systèmes de traduction neuronaux classiques. Nous étudions le rôle du bilinguisme incidentel -- l'exposition involontaire à des signaux bilingues, y compris des exemples de traduction -- dans l'explication des capacités de traduction des grands modèles de langage, en prenant le modèle de langage Pathways (PaLM) comme étude de cas. Nous introduisons une approche mixte pour mesurer et comprendre le bilinguisme incidentel à grande échelle. Nous montrons que PaLM est exposé à plus de 30 millions de paires de traduction couvrant au moins 44 langues. De plus, la quantité de contenu bilingue incidentel est fortement corrélée à la quantité de contenu monolingue dans la langue concernée pour les langues non anglophones. Nous établissons un lien entre le contenu bilingue incidentel et les prompts zero-shot, et montrons qu'il peut être utilisé pour extraire de nouveaux prompts afin d'améliorer la qualité de la traduction zero-shot hors de l'anglais de PaLM. Enfin, dans une série d'ablation à petite échelle, nous montrons que sa présence a un impact substantiel sur les capacités de traduction, bien que cet impact diminue avec l'échelle du modèle.
English
Large, multilingual language models exhibit surprisingly good zero- or few-shot machine translation capabilities, despite having never seen the intentionally-included translation examples provided to typical neural translation systems. We investigate the role of incidental bilingualism -- the unintentional consumption of bilingual signals, including translation examples -- in explaining the translation capabilities of large language models, taking the Pathways Language Model (PaLM) as a case study. We introduce a mixed-method approach to measure and understand incidental bilingualism at scale. We show that PaLM is exposed to over 30 million translation pairs across at least 44 languages. Furthermore, the amount of incidental bilingual content is highly correlated with the amount of monolingual in-language content for non-English languages. We relate incidental bilingual content to zero-shot prompts and show that it can be used to mine new prompts to improve PaLM's out-of-English zero-shot translation quality. Finally, in a series of small-scale ablations, we show that its presence has a substantial impact on translation capabilities, although this impact diminishes with model scale.
PDF10December 15, 2024