Neubewertung der Interpretierbarkeit im Zeitalter großer Sprachmodelle

papers.abstract

Interpretierbares maschinelles Lernen hat sich im letzten Jahrzehnt als Forschungsgebiet rasant entwickelt, angeregt durch den Aufstieg immer größerer Datensätze und tiefer neuronaler Netzwerke. Gleichzeitig haben große Sprachmodelle (Large Language Models, LLMs) bemerkenswerte Fähigkeiten in einer Vielzahl von Aufgaben gezeigt und bieten die Möglichkeit, Chancen im Bereich des interpretierbaren maschinellen Lernens neu zu überdenken. Insbesondere die Fähigkeit, Erklärungen in natürlicher Sprache zu liefern, ermöglicht es LLMs, das Ausmaß und die Komplexität der Muster zu erweitern, die einem Menschen vermittelt werden können. Diese neuen Fähigkeiten bringen jedoch auch neue Herausforderungen mit sich, wie etwa halluzinierte Erklärungen und immense Rechenkosten. In diesem Positionspapier beginnen wir mit einer Überprüfung bestehender Methoden zur Bewertung des aufstrebenden Feldes der LLM-Interpretation (sowohl die Interpretation von LLMs als auch die Verwendung von LLMs zur Erklärung). Wir vertreten die Ansicht, dass LLMs trotz ihrer Grenzen die Möglichkeit bieten, Interpretierbarkeit mit einem ehrgeizigeren Anwendungsbereich neu zu definieren, einschließlich der Überprüfung von LLMs selbst. Wir heben zwei aufkommende Forschungsschwerpunkte für die LLM-Interpretation hervor: die direkte Analyse neuer Datensätze durch LLMs und die Erzeugung interaktiver Erklärungen.

English

Interpretable machine learning has exploded as an area of interest over the last decade, sparked by the rise of increasingly large datasets and deep neural networks. Simultaneously, large language models (LLMs) have demonstrated remarkable capabilities across a wide array of tasks, offering a chance to rethink opportunities in interpretable machine learning. Notably, the capability to explain in natural language allows LLMs to expand the scale and complexity of patterns that can be given to a human. However, these new capabilities raise new challenges, such as hallucinated explanations and immense computational costs. In this position paper, we start by reviewing existing methods to evaluate the emerging field of LLM interpretation (both interpreting LLMs and using LLMs for explanation). We contend that, despite their limitations, LLMs hold the opportunity to redefine interpretability with a more ambitious scope across many applications, including in auditing LLMs themselves. We highlight two emerging research priorities for LLM interpretation: using LLMs to directly analyze new datasets and to generate interactive explanations.

Neubewertung der Interpretierbarkeit im Zeitalter großer Sprachmodelle

Rethinking Interpretability in the Era of Large Language Models

papers.abstract

Support