ChatPaper.aiChatPaper

Explicar módulos de texto de caja negra en lenguaje natural con modelos de lenguaje

Explaining black box text modules in natural language with language models

May 17, 2023
Autores: Chandan Singh, Aliyah R. Hsu, Richard Antonello, Shailee Jain, Alexander G. Huth, Bin Yu, Jianfeng Gao
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento predictivo notable en un número creciente de tareas. Sin embargo, su rápida proliferación y su creciente opacidad han generado una necesidad cada vez mayor de interpretabilidad. Aquí, nos preguntamos si es posible obtener automáticamente explicaciones en lenguaje natural para módulos de texto de caja negra. Un "módulo de texto" es cualquier función que mapea texto a un valor escalar continuo, como un submódulo dentro de un LLM o un modelo ajustado de una región cerebral. "Caja negra" indica que solo tenemos acceso a las entradas/salidas del módulo. Presentamos Summarize and Score (SASC), un método que toma un módulo de texto y devuelve una explicación en lenguaje natural sobre la selectividad del módulo, junto con una puntuación que indica la confiabilidad de la explicación. Estudiamos SASC en tres contextos. Primero, evaluamos SASC en módulos sintéticos y encontramos que a menudo recupera explicaciones de la verdad fundamental. Segundo, utilizamos SASC para explicar módulos encontrados dentro de un modelo BERT preentrenado, lo que permite inspeccionar los componentes internos del modelo. Finalmente, mostramos que SASC puede generar explicaciones para la respuesta de voxeles individuales de fMRI a estímulos lingüísticos, con posibles aplicaciones en el mapeo cerebral de alta resolución. Todo el código para usar SASC y reproducir los resultados está disponible en Github.
English
Large language models (LLMs) have demonstrated remarkable prediction performance for a growing array of tasks. However, their rapid proliferation and increasing opaqueness have created a growing need for interpretability. Here, we ask whether we can automatically obtain natural language explanations for black box text modules. A "text module" is any function that maps text to a scalar continuous value, such as a submodule within an LLM or a fitted model of a brain region. "Black box" indicates that we only have access to the module's inputs/outputs. We introduce Summarize and Score (SASC), a method that takes in a text module and returns a natural language explanation of the module's selectivity along with a score for how reliable the explanation is. We study SASC in 3 contexts. First, we evaluate SASC on synthetic modules and find that it often recovers ground truth explanations. Second, we use SASC to explain modules found within a pre-trained BERT model, enabling inspection of the model's internals. Finally, we show that SASC can generate explanations for the response of individual fMRI voxels to language stimuli, with potential applications to fine-grained brain mapping. All code for using SASC and reproducing results is made available on Github.
PDF20December 15, 2024