Verwendung von Captum zur Erklärung generativer Sprachmodelle
Using Captum to Explain Generative Language Models
December 9, 2023
Autoren: Vivek Miglani, Aobo Yang, Aram H. Markosyan, Diego Garcia-Olano, Narine Kokhlikyan
cs.AI
Zusammenfassung
Captum ist eine umfassende Bibliothek für die Erklärbarkeit von Modellen in PyTorch, die eine Vielzahl von Methoden aus der Interpretationsliteratur bietet, um das Verständnis von PyTorch-Modellen zu verbessern. In diesem Artikel stellen wir neue Funktionen in Captum vor, die speziell zur Analyse des Verhaltens von generativen Sprachmodellen entwickelt wurden. Wir geben einen Überblick über die verfügbaren Funktionalitäten und beispielhafte Anwendungen, die ihr Potenzial zur Untersuchung erlernter Assoziationen innerhalb generativer Sprachmodelle aufzeigen.
English
Captum is a comprehensive library for model explainability in PyTorch,
offering a range of methods from the interpretability literature to enhance
users' understanding of PyTorch models. In this paper, we introduce new
features in Captum that are specifically designed to analyze the behavior of
generative language models. We provide an overview of the available
functionalities and example applications of their potential for understanding
learned associations within generative language models.