Étude de la généralisation des grands modèles de langage à l'aide des fonctions d'influence

papers.abstract

Lorsqu'on cherche à mieux comprendre un modèle d'apprentissage automatique afin de cerner et d'atténuer les risques associés, une source d'information potentiellement précieuse est : quels exemples d'entraînement contribuent le plus à un comportement donné ? Les fonctions d'influence visent à répondre à une question contrefactuelle : comment les paramètres du modèle (et donc ses sorties) changeraient-ils si une séquence donnée était ajoutée à l'ensemble d'entraînement ? Bien que les fonctions d'influence aient fourni des insights pour des modèles de petite taille, elles sont difficiles à adapter aux grands modèles de langage (LLMs) en raison de la complexité du calcul d'un produit vecteur-inverse-Hessien (IHVP). Nous utilisons l'approximation Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) pour étendre les fonctions d'influence à des LLMs comptant jusqu'à 52 milliards de paramètres. Dans nos expériences, EK-FAC atteint une précision similaire aux estimateurs traditionnels de fonctions d'influence, bien que le calcul de l'IHVP soit plusieurs ordres de grandeur plus rapide. Nous explorons deux techniques algorithmiques pour réduire le coût du calcul des gradients des séquences candidates d'entraînement : le filtrage TF-IDF et le regroupement de requêtes. Nous utilisons les fonctions d'influence pour étudier les schémas de généralisation des LLMs, notamment la sparsité des motifs d'influence, l'abstraction croissante avec l'échelle, les capacités en mathématiques et programmation, la généralisation multilingue et le comportement de jeu de rôle. Malgré de nombreuses formes de généralisation apparemment sophistiquées, nous identifions une limitation surprenante : les influences décroissent jusqu'à presque zéro lorsque l'ordre des phrases clés est inversé. Globalement, les fonctions d'influence nous offrent un nouvel outil puissant pour étudier les propriétés de généralisation des LLMs.

English

When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.

Étude de la généralisation des grands modèles de langage à l'aide des fonctions d'influence

Studying Large Language Model Generalization with Influence Functions

papers.abstract

Support