Untersuchung der Generalisierung großer Sprachmodelle mithilfe von Einflussfunktionen
Studying Large Language Model Generalization with Influence Functions
August 7, 2023
papers.authors: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamilė Lukošiūtė, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
cs.AI
papers.abstract
Beim Versuch, bessere Einblicke in ein maschinelles Lernmodell zu gewinnen, um die damit verbundenen Risiken zu verstehen und zu mindern, stellt sich eine potenziell wertvolle Informationsquelle: Welche Trainingsbeispiele tragen am meisten zu einem bestimmten Verhalten bei? Einflussfunktionen zielen darauf ab, eine kontrafaktische Frage zu beantworten: Wie würden sich die Parameter des Modells (und damit seine Ausgaben) ändern, wenn eine bestimmte Sequenz zum Trainingsdatensatz hinzugefügt würde? Während Einflussfunktionen bei kleinen Modellen Erkenntnisse geliefert haben, sind sie aufgrund der Schwierigkeit, ein inverses Hessian-Vektor-Produkt (IHVP) zu berechnen, schwer auf große Sprachmodelle (LLMs) zu skalieren. Wir verwenden die Eigenwert-korrigierte Kronecker-Faktorisierte Näherung der Krümmung (EK-FAC), um Einflussfunktionen auf LLMs mit bis zu 52 Milliarden Parametern zu skalieren. In unseren Experimenten erreicht EK-FAC eine ähnliche Genauigkeit wie traditionelle Einflussfunktionsschätzer, obwohl die IHVP-Berechnung um Größenordnungen schneller ist. Wir untersuchen zwei algorithmische Techniken, um die Kosten für die Berechnung von Gradienten potenzieller Trainingssequenzen zu reduzieren: TF-IDF-Filterung und Abfragebündelung. Wir nutzen Einflussfunktionen, um die Generalisierungsmuster von LLMs zu untersuchen, einschließlich der Sparsity der Einflussmuster, zunehmender Abstraktion mit der Skalierung, mathematischer und programmiertechnischer Fähigkeiten, cross-lingualer Generalisierung und Rollenspielverhalten. Trotz vieler scheinbar ausgefeilter Formen der Generalisierung identifizieren wir eine überraschende Einschränkung: Die Einflüsse fallen auf nahezu Null, wenn die Reihenfolge der Schlüsselphrasen umgedreht wird. Insgesamt geben uns Einflussfunktionen ein leistungsstarkes neues Werkzeug, um die Generalisierungseigenschaften von LLMs zu untersuchen.
English
When trying to gain better visibility into a machine learning model in order
to understand and mitigate the associated risks, a potentially valuable source
of evidence is: which training examples most contribute to a given behavior?
Influence functions aim to answer a counterfactual: how would the model's
parameters (and hence its outputs) change if a given sequence were added to the
training set? While influence functions have produced insights for small
models, they are difficult to scale to large language models (LLMs) due to the
difficulty of computing an inverse-Hessian-vector product (IHVP). We use the
Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)
approximation to scale influence functions up to LLMs with up to 52 billion
parameters. In our experiments, EK-FAC achieves similar accuracy to traditional
influence function estimators despite the IHVP computation being orders of
magnitude faster. We investigate two algorithmic techniques to reduce the cost
of computing gradients of candidate training sequences: TF-IDF filtering and
query batching. We use influence functions to investigate the generalization
patterns of LLMs, including the sparsity of the influence patterns, increasing
abstraction with scale, math and programming abilities, cross-lingual
generalization, and role-playing behavior. Despite many apparently
sophisticated forms of generalization, we identify a surprising limitation:
influences decay to near-zero when the order of key phrases is flipped.
Overall, influence functions give us a powerful new tool for studying the
generalization properties of LLMs.