ChatPaper.aiChatPaper

Lo Mismo Pero Diferente: Similitudes y Diferencias Estructurales en el Modelado del Lenguaje Multilingüe

The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling

October 11, 2024
Autores: Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
cs.AI

Resumen

Empleamos nuevas herramientas de interpretabilidad mecanicista para preguntarnos si la estructura interna de los grandes modelos de lenguaje (LLMs) muestra correspondencia con las estructuras lingüísticas que subyacen a los idiomas en los que están entrenados. En particular, nos preguntamos (1) cuando dos idiomas emplean los mismos procesos morfosintácticos, ¿los LLMs los manejan utilizando circuitos internos compartidos? y (2) cuando dos idiomas requieren diferentes procesos morfosintácticos, ¿los LLMs los manejan utilizando circuitos internos distintos? Utilizando modelos multilingües y monolingües en inglés y chino, analizamos los circuitos internos involucrados en dos tareas. Encontramos evidencia de que los modelos emplean el mismo circuito para manejar el mismo proceso sintáctico independientemente del idioma en el que ocurra, y que este es el caso incluso para modelos monolingües entrenados completamente de forma independiente. Además, mostramos que los modelos multilingües emplean componentes específicos del idioma (cabezas de atención y redes feed-forward) cuando es necesario manejar procesos lingüísticos (por ejemplo, marcas morfológicas) que solo existen en algunos idiomas. En conjunto, nuestros resultados proporcionan nuevas perspectivas sobre cómo los LLMs equilibran entre explotar estructuras comunes y preservar diferencias lingüísticas cuando se les encarga modelar múltiples idiomas simultáneamente.
English
We employ new tools from mechanistic interpretability in order to ask whether the internal structure of large language models (LLMs) shows correspondence to the linguistic structures which underlie the languages on which they are trained. In particular, we ask (1) when two languages employ the same morphosyntactic processes, do LLMs handle them using shared internal circuitry? and (2) when two languages require different morphosyntactic processes, do LLMs handle them using different internal circuitry? Using English and Chinese multilingual and monolingual models, we analyze the internal circuitry involved in two tasks. We find evidence that models employ the same circuit to handle the same syntactic process independently of the language in which it occurs, and that this is the case even for monolingual models trained completely independently. Moreover, we show that multilingual models employ language-specific components (attention heads and feed-forward networks) when needed to handle linguistic processes (e.g., morphological marking) that only exist in some languages. Together, our results provide new insights into how LLMs trade off between exploiting common structures and preserving linguistic differences when tasked with modeling multiple languages simultaneously.

Summary

AI-Generated Summary

PDF52November 16, 2024