Repenser l'interprétabilité à l'ère des grands modèles de langage

papers.abstract

L'apprentissage automatique interprétable a connu un essor considérable au cours de la dernière décennie, stimulé par l'émergence de jeux de données de plus en plus volumineux et de réseaux de neurones profonds. Parallèlement, les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans un large éventail de tâches, offrant une opportunité de repenser les possibilités en matière d'apprentissage automatique interprétable. Notamment, la capacité à expliquer en langage naturel permet aux LLMs d'élargir l'échelle et la complexité des modèles qui peuvent être présentés à un humain. Cependant, ces nouvelles capacités soulèvent également de nouveaux défis, tels que des explications hallucinées et des coûts de calcul immenses. Dans ce document de position, nous commençons par passer en revue les méthodes existantes pour évaluer le domaine émergent de l'interprétation des LLMs (à la fois interpréter les LLMs et utiliser les LLMs pour fournir des explications). Nous soutenons que, malgré leurs limites, les LLMs offrent l'opportunité de redéfinir l'interprétabilité avec une portée plus ambitieuse dans de nombreuses applications, y compris dans l'audit des LLMs eux-mêmes. Nous mettons en lumière deux priorités de recherche émergentes pour l'interprétation des LLMs : l'utilisation des LLMs pour analyser directement de nouveaux jeux de données et pour générer des explications interactives.

English

Interpretable machine learning has exploded as an area of interest over the last decade, sparked by the rise of increasingly large datasets and deep neural networks. Simultaneously, large language models (LLMs) have demonstrated remarkable capabilities across a wide array of tasks, offering a chance to rethink opportunities in interpretable machine learning. Notably, the capability to explain in natural language allows LLMs to expand the scale and complexity of patterns that can be given to a human. However, these new capabilities raise new challenges, such as hallucinated explanations and immense computational costs. In this position paper, we start by reviewing existing methods to evaluate the emerging field of LLM interpretation (both interpreting LLMs and using LLMs for explanation). We contend that, despite their limitations, LLMs hold the opportunity to redefine interpretability with a more ambitious scope across many applications, including in auditing LLMs themselves. We highlight two emerging research priorities for LLM interpretation: using LLMs to directly analyze new datasets and to generate interactive explanations.

Repenser l'interprétabilité à l'ère des grands modèles de langage

Rethinking Interpretability in the Era of Large Language Models

papers.abstract

Support