Repenser l'interprétabilité à l'ère des grands modèles de langage
Rethinking Interpretability in the Era of Large Language Models
January 30, 2024
Auteurs: Chandan Singh, Jeevana Priya Inala, Michel Galley, Rich Caruana, Jianfeng Gao
cs.AI
Résumé
L'apprentissage automatique interprétable a connu un essor considérable au cours de la dernière décennie, stimulé par l'émergence de jeux de données de plus en plus volumineux et de réseaux de neurones profonds. Parallèlement, les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans un large éventail de tâches, offrant une opportunité de repenser les possibilités en matière d'apprentissage automatique interprétable. Notamment, la capacité à expliquer en langage naturel permet aux LLMs d'élargir l'échelle et la complexité des modèles qui peuvent être présentés à un humain. Cependant, ces nouvelles capacités soulèvent également de nouveaux défis, tels que des explications hallucinées et des coûts de calcul immenses.
Dans ce document de position, nous commençons par passer en revue les méthodes existantes pour évaluer le domaine émergent de l'interprétation des LLMs (à la fois interpréter les LLMs et utiliser les LLMs pour fournir des explications). Nous soutenons que, malgré leurs limites, les LLMs offrent l'opportunité de redéfinir l'interprétabilité avec une portée plus ambitieuse dans de nombreuses applications, y compris dans l'audit des LLMs eux-mêmes. Nous mettons en lumière deux priorités de recherche émergentes pour l'interprétation des LLMs : l'utilisation des LLMs pour analyser directement de nouveaux jeux de données et pour générer des explications interactives.
English
Interpretable machine learning has exploded as an area of interest over the
last decade, sparked by the rise of increasingly large datasets and deep neural
networks. Simultaneously, large language models (LLMs) have demonstrated
remarkable capabilities across a wide array of tasks, offering a chance to
rethink opportunities in interpretable machine learning. Notably, the
capability to explain in natural language allows LLMs to expand the scale and
complexity of patterns that can be given to a human. However, these new
capabilities raise new challenges, such as hallucinated explanations and
immense computational costs.
In this position paper, we start by reviewing existing methods to evaluate
the emerging field of LLM interpretation (both interpreting LLMs and using LLMs
for explanation). We contend that, despite their limitations, LLMs hold the
opportunity to redefine interpretability with a more ambitious scope across
many applications, including in auditing LLMs themselves. We highlight two
emerging research priorities for LLM interpretation: using LLMs to directly
analyze new datasets and to generate interactive explanations.