То же самое, но по-разному: структурные сходства и различия в мультиязычном моделировании языка.
The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling
October 11, 2024
Авторы: Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
cs.AI
Аннотация
Мы используем новые инструменты механистической интерпретируемости, чтобы выяснить, соответствует ли внутренняя структура крупных языковых моделей (LLM) лингвистическим структурам, лежащим в основе языков, на которых они обучены. В частности, мы спрашиваем: (1) когда два языка используют одни и те же морфосинтаксические процессы, обрабатывают ли LLM их с использованием общей внутренней схемы? и (2) когда два языка требуют различных морфосинтаксических процессов, обрабатывают ли LLM их с использованием различной внутренней схемы? Используя английские и китайские мультиязычные и одноязычные модели, мы анализируем внутреннюю схему, участвующую в двух задачах. Мы обнаруживаем доказательства того, что модели используют одну и ту же схему для обработки одного и того же синтаксического процесса независимо от языка, в котором он происходит, и что это верно даже для одноязычных моделей, обученных полностью независимо. Более того, мы показываем, что мультиязычные модели используют языковые компоненты (головы внимания и прямые сети) при необходимости обработки лингвистических процессов (например, морфологической маркировки), которые существуют только в некоторых языках. В целом, наши результаты предоставляют новые идеи о том, как LLM балансируют между использованием общих структур и сохранением лингвистических различий при моделировании нескольких языков одновременно.
English
We employ new tools from mechanistic interpretability in order to ask whether
the internal structure of large language models (LLMs) shows correspondence to
the linguistic structures which underlie the languages on which they are
trained. In particular, we ask (1) when two languages employ the same
morphosyntactic processes, do LLMs handle them using shared internal circuitry?
and (2) when two languages require different morphosyntactic processes, do LLMs
handle them using different internal circuitry? Using English and Chinese
multilingual and monolingual models, we analyze the internal circuitry involved
in two tasks. We find evidence that models employ the same circuit to handle
the same syntactic process independently of the language in which it occurs,
and that this is the case even for monolingual models trained completely
independently. Moreover, we show that multilingual models employ
language-specific components (attention heads and feed-forward networks) when
needed to handle linguistic processes (e.g., morphological marking) that only
exist in some languages. Together, our results provide new insights into how
LLMs trade off between exploiting common structures and preserving linguistic
differences when tasked with modeling multiple languages simultaneously.Summary
AI-Generated Summary