건초 더미에서 바늘 찾기: PaLM의 번역 능력에서 우연적 이중언어주의의 역할에 관하여
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability
May 17, 2023
저자: Eleftheria Briakou, Colin Cherry, George Foster
cs.AI
초록
대규모 다국어 언어 모델은 일반적인 신경망 번역 시스템에 제공되는 의도적인 번역 예제를 본 적이 없음에도 불구하고, 놀라울 정도로 우수한 제로샷 또는 퓨샷 기계 번역 능력을 보여줍니다. 우리는 대규모 언어 모델의 번역 능력을 설명하는 데 있어 '우연적 이중언어성(incidental bilingualism)'의 역할을 조사합니다. 여기서 우연적 이중언어성은 번역 예제를 포함한 이중언어 신호를 의도하지 않게 소비한 것을 의미하며, Pathways Language Model(PaLM)을 사례 연구로 삼습니다. 우리는 대규모로 우연적 이중언어성을 측정하고 이해하기 위한 혼합 방법론을 소개합니다. 이를 통해 PaLM이 최소 44개 언어에 걸쳐 3천만 개 이상의 번역 쌍에 노출되었음을 보여줍니다. 또한, 비영어 언어의 경우 우연적 이중언어 콘텐츠의 양은 해당 언어의 단일언어 콘텐츠의 양과 높은 상관관계를 보입니다. 우리는 우연적 이중언어 콘텐츠를 제로샷 프롬프트와 연관지어, 이를 통해 새로운 프롬프트를 발굴하여 PaLM의 영어 외 제로샷 번역 품질을 개선할 수 있음을 보여줍니다. 마지막으로, 일련의 소규모 제거 실험을 통해 우연적 이중언어성이 번역 능력에 상당한 영향을 미치지만, 이 영향은 모델 규모가 커질수록 감소함을 확인합니다.
English
Large, multilingual language models exhibit surprisingly good zero- or
few-shot machine translation capabilities, despite having never seen the
intentionally-included translation examples provided to typical neural
translation systems. We investigate the role of incidental bilingualism -- the
unintentional consumption of bilingual signals, including translation examples
-- in explaining the translation capabilities of large language models, taking
the Pathways Language Model (PaLM) as a case study. We introduce a mixed-method
approach to measure and understand incidental bilingualism at scale. We show
that PaLM is exposed to over 30 million translation pairs across at least 44
languages. Furthermore, the amount of incidental bilingual content is highly
correlated with the amount of monolingual in-language content for non-English
languages. We relate incidental bilingual content to zero-shot prompts and show
that it can be used to mine new prompts to improve PaLM's out-of-English
zero-shot translation quality. Finally, in a series of small-scale ablations,
we show that its presence has a substantial impact on translation capabilities,
although this impact diminishes with model scale.