ChatPaper.aiChatPaper

Le Même Mais Différent : Similarités et Différences Structurelles dans la Modélisation de Langues Multilingues

The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling

October 11, 2024
Auteurs: Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
cs.AI

Résumé

Nous utilisons de nouveaux outils d'interprétabilité mécaniste afin de déterminer si la structure interne des grands modèles de langage (LLM) présente une correspondance avec les structures linguistiques sous-jacentes aux langues sur lesquelles ils sont entraînés. En particulier, nous nous demandons (1) lorsque deux langues utilisent les mêmes processus morphosyntaxiques, est-ce que les LLM les traitent en utilisant un circuit interne partagé ? et (2) lorsque deux langues nécessitent des processus morphosyntaxiques différents, est-ce que les LLM les traitent en utilisant un circuit interne différent ? En utilisant des modèles multilingues et monolingues anglais et chinois, nous analysons le circuit interne impliqué dans deux tâches. Nous trouvons des preuves que les modèles utilisent le même circuit pour traiter le même processus syntaxique indépendamment de la langue dans laquelle il se produit, et que c'est le cas même pour les modèles monolingues entraînés complètement indépendamment. De plus, nous montrons que les modèles multilingues utilisent des composants spécifiques à la langue (têtes d'attention et réseaux feed-forward) lorsqu'ils sont nécessaires pour traiter des processus linguistiques (par exemple, le marquage morphologique) qui n'existent que dans certaines langues. Ensemble, nos résultats fournissent de nouvelles perspectives sur la manière dont les LLM jonglent entre l'exploitation de structures communes et la préservation des différences linguistiques lorsqu'ils sont chargés de modéliser simultanément plusieurs langues.
English
We employ new tools from mechanistic interpretability in order to ask whether the internal structure of large language models (LLMs) shows correspondence to the linguistic structures which underlie the languages on which they are trained. In particular, we ask (1) when two languages employ the same morphosyntactic processes, do LLMs handle them using shared internal circuitry? and (2) when two languages require different morphosyntactic processes, do LLMs handle them using different internal circuitry? Using English and Chinese multilingual and monolingual models, we analyze the internal circuitry involved in two tasks. We find evidence that models employ the same circuit to handle the same syntactic process independently of the language in which it occurs, and that this is the case even for monolingual models trained completely independently. Moreover, we show that multilingual models employ language-specific components (attention heads and feed-forward networks) when needed to handle linguistic processes (e.g., morphological marking) that only exist in some languages. Together, our results provide new insights into how LLMs trade off between exploiting common structures and preserving linguistic differences when tasked with modeling multiple languages simultaneously.

Summary

AI-Generated Summary

PDF52November 16, 2024