Heroverdenken van interpreteerbaarheid in het tijdperk van grote taalmodellen
Rethinking Interpretability in the Era of Large Language Models
January 30, 2024
Auteurs: Chandan Singh, Jeevana Priya Inala, Michel Galley, Rich Caruana, Jianfeng Gao
cs.AI
Samenvatting
Interpretable machine learning is de afgelopen decennium enorm in belang toegenomen, aangewakkerd door de opkomst van steeds grotere datasets en diepe neurale netwerken. Tegelijkertijd hebben grote taalmodelen (LLMs) opmerkelijke prestaties laten zien in een breed scala aan taken, wat kansen biedt om mogelijkheden binnen interpretable machine learning opnieuw te overdenken. Met name het vermogen om in natuurlijke taal uit te leggen stelt LLMs in staat om de schaal en complexiteit van patronen die aan een mens kunnen worden gepresenteerd, te vergroten. Deze nieuwe mogelijkheden brengen echter ook nieuwe uitdagingen met zich mee, zoals hallucinerende verklaringen en enorme rekenkosten.
In dit position paper beginnen we met een overzicht van bestaande methoden om het opkomende veld van LLM-interpretatie te evalueren (zowel het interpreteren van LLMs als het gebruik van LLMs voor uitleg). Wij stellen dat LLMs, ondanks hun beperkingen, de kans bieden om interpretability opnieuw te definiëren met een ambitieuzere scope in vele toepassingen, inclusief het auditen van LLMs zelf. We belichten twee opkomende onderzoeksprioriteiten voor LLM-interpretatie: het gebruik van LLMs om nieuwe datasets direct te analyseren en om interactieve verklaringen te genereren.
English
Interpretable machine learning has exploded as an area of interest over the
last decade, sparked by the rise of increasingly large datasets and deep neural
networks. Simultaneously, large language models (LLMs) have demonstrated
remarkable capabilities across a wide array of tasks, offering a chance to
rethink opportunities in interpretable machine learning. Notably, the
capability to explain in natural language allows LLMs to expand the scale and
complexity of patterns that can be given to a human. However, these new
capabilities raise new challenges, such as hallucinated explanations and
immense computational costs.
In this position paper, we start by reviewing existing methods to evaluate
the emerging field of LLM interpretation (both interpreting LLMs and using LLMs
for explanation). We contend that, despite their limitations, LLMs hold the
opportunity to redefine interpretability with a more ambitious scope across
many applications, including in auditing LLMs themselves. We highlight two
emerging research priorities for LLM interpretation: using LLMs to directly
analyze new datasets and to generate interactive explanations.