Neubewertung der Interpretierbarkeit im Zeitalter großer Sprachmodelle
Rethinking Interpretability in the Era of Large Language Models
January 30, 2024
Autoren: Chandan Singh, Jeevana Priya Inala, Michel Galley, Rich Caruana, Jianfeng Gao
cs.AI
Zusammenfassung
Interpretierbares maschinelles Lernen hat sich im letzten Jahrzehnt als Forschungsgebiet rasant entwickelt, angeregt durch den Aufstieg immer größerer Datensätze und tiefer neuronaler Netzwerke. Gleichzeitig haben große Sprachmodelle (Large Language Models, LLMs) bemerkenswerte Fähigkeiten in einer Vielzahl von Aufgaben gezeigt und bieten die Möglichkeit, Chancen im Bereich des interpretierbaren maschinellen Lernens neu zu überdenken. Insbesondere die Fähigkeit, Erklärungen in natürlicher Sprache zu liefern, ermöglicht es LLMs, das Ausmaß und die Komplexität der Muster zu erweitern, die einem Menschen vermittelt werden können. Diese neuen Fähigkeiten bringen jedoch auch neue Herausforderungen mit sich, wie etwa halluzinierte Erklärungen und immense Rechenkosten.
In diesem Positionspapier beginnen wir mit einer Überprüfung bestehender Methoden zur Bewertung des aufstrebenden Feldes der LLM-Interpretation (sowohl die Interpretation von LLMs als auch die Verwendung von LLMs zur Erklärung). Wir vertreten die Ansicht, dass LLMs trotz ihrer Grenzen die Möglichkeit bieten, Interpretierbarkeit mit einem ehrgeizigeren Anwendungsbereich neu zu definieren, einschließlich der Überprüfung von LLMs selbst. Wir heben zwei aufkommende Forschungsschwerpunkte für die LLM-Interpretation hervor: die direkte Analyse neuer Datensätze durch LLMs und die Erzeugung interaktiver Erklärungen.
English
Interpretable machine learning has exploded as an area of interest over the
last decade, sparked by the rise of increasingly large datasets and deep neural
networks. Simultaneously, large language models (LLMs) have demonstrated
remarkable capabilities across a wide array of tasks, offering a chance to
rethink opportunities in interpretable machine learning. Notably, the
capability to explain in natural language allows LLMs to expand the scale and
complexity of patterns that can be given to a human. However, these new
capabilities raise new challenges, such as hallucinated explanations and
immense computational costs.
In this position paper, we start by reviewing existing methods to evaluate
the emerging field of LLM interpretation (both interpreting LLMs and using LLMs
for explanation). We contend that, despite their limitations, LLMs hold the
opportunity to redefine interpretability with a more ambitious scope across
many applications, including in auditing LLMs themselves. We highlight two
emerging research priorities for LLM interpretation: using LLMs to directly
analyze new datasets and to generate interactive explanations.