Поиск иголки в стоге сена: роль случайного билингвизма в переводческих способностях модели PaLM
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability
May 17, 2023
Авторы: Eleftheria Briakou, Colin Cherry, George Foster
cs.AI
Аннотация
Крупные многоязычные языковые модели демонстрируют удивительно хорошие способности к машинному переводу в условиях нулевого или малого числа примеров, несмотря на то, что они никогда не видели специально включенных примеров перевода, предоставляемых типичным нейронным системам перевода. Мы исследуем роль случайного билингвизма — непреднамеренного потребления двуязычных сигналов, включая примеры перевода — в объяснении переводческих способностей крупных языковых моделей, используя Pathways Language Model (PaLM) в качестве примера. Мы предлагаем смешанный метод для измерения и понимания случайного билингвизма в масштабе. Мы показываем, что PaLM подвергается воздействию более 30 миллионов пар перевода как минимум на 44 языках. Более того, объем случайного двуязычного контента сильно коррелирует с объемом одноязычного контента на неанглийских языках. Мы связываем случайный двуязычный контент с запросами для нулевого перевода и показываем, что его можно использовать для поиска новых запросов, чтобы улучшить качество нулевого перевода PaLM с английского на другие языки. Наконец, в серии небольших экспериментов мы демонстрируем, что его присутствие оказывает существенное влияние на способности к переводу, хотя это влияние уменьшается с увеличением масштаба модели.
English
Large, multilingual language models exhibit surprisingly good zero- or
few-shot machine translation capabilities, despite having never seen the
intentionally-included translation examples provided to typical neural
translation systems. We investigate the role of incidental bilingualism -- the
unintentional consumption of bilingual signals, including translation examples
-- in explaining the translation capabilities of large language models, taking
the Pathways Language Model (PaLM) as a case study. We introduce a mixed-method
approach to measure and understand incidental bilingualism at scale. We show
that PaLM is exposed to over 30 million translation pairs across at least 44
languages. Furthermore, the amount of incidental bilingual content is highly
correlated with the amount of monolingual in-language content for non-English
languages. We relate incidental bilingual content to zero-shot prompts and show
that it can be used to mine new prompts to improve PaLM's out-of-English
zero-shot translation quality. Finally, in a series of small-scale ablations,
we show that its presence has a substantial impact on translation capabilities,
although this impact diminishes with model scale.