Heroverdenken van interpreteerbaarheid in het tijdperk van grote taalmodellen

Samenvatting

Interpretable machine learning is de afgelopen decennium enorm in belang toegenomen, aangewakkerd door de opkomst van steeds grotere datasets en diepe neurale netwerken. Tegelijkertijd hebben grote taalmodelen (LLMs) opmerkelijke prestaties laten zien in een breed scala aan taken, wat kansen biedt om mogelijkheden binnen interpretable machine learning opnieuw te overdenken. Met name het vermogen om in natuurlijke taal uit te leggen stelt LLMs in staat om de schaal en complexiteit van patronen die aan een mens kunnen worden gepresenteerd, te vergroten. Deze nieuwe mogelijkheden brengen echter ook nieuwe uitdagingen met zich mee, zoals hallucinerende verklaringen en enorme rekenkosten. In dit position paper beginnen we met een overzicht van bestaande methoden om het opkomende veld van LLM-interpretatie te evalueren (zowel het interpreteren van LLMs als het gebruik van LLMs voor uitleg). Wij stellen dat LLMs, ondanks hun beperkingen, de kans bieden om interpretability opnieuw te definiëren met een ambitieuzere scope in vele toepassingen, inclusief het auditen van LLMs zelf. We belichten twee opkomende onderzoeksprioriteiten voor LLM-interpretatie: het gebruik van LLMs om nieuwe datasets direct te analyseren en om interactieve verklaringen te genereren.

English

Interpretable machine learning has exploded as an area of interest over the last decade, sparked by the rise of increasingly large datasets and deep neural networks. Simultaneously, large language models (LLMs) have demonstrated remarkable capabilities across a wide array of tasks, offering a chance to rethink opportunities in interpretable machine learning. Notably, the capability to explain in natural language allows LLMs to expand the scale and complexity of patterns that can be given to a human. However, these new capabilities raise new challenges, such as hallucinated explanations and immense computational costs. In this position paper, we start by reviewing existing methods to evaluate the emerging field of LLM interpretation (both interpreting LLMs and using LLMs for explanation). We contend that, despite their limitations, LLMs hold the opportunity to redefine interpretability with a more ambitious scope across many applications, including in auditing LLMs themselves. We highlight two emerging research priorities for LLM interpretation: using LLMs to directly analyze new datasets and to generate interactive explanations.

Heroverdenken van interpreteerbaarheid in het tijdperk van grote taalmodellen

Rethinking Interpretability in the Era of Large Language Models

Samenvatting

Support