Estudiando la Generalización de Modelos de Lenguaje de Gran Escala con Funciones de Influencia

Resumen

Al intentar obtener una mayor visibilidad sobre un modelo de aprendizaje automático para comprender y mitigar los riesgos asociados, una fuente de evidencia potencialmente valiosa es: ¿qué ejemplos de entrenamiento contribuyen más a un comportamiento dado? Las funciones de influencia buscan responder a una pregunta contrafactual: ¿cómo cambiarían los parámetros del modelo (y, por lo tanto, sus salidas) si se añadiera una secuencia determinada al conjunto de entrenamiento? Aunque las funciones de influencia han proporcionado insights en modelos pequeños, son difíciles de escalar a modelos de lenguaje grandes (LLMs) debido a la dificultad de calcular un producto vectorial de la inversa del hessiano (IHVP). Utilizamos la aproximación Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) para escalar las funciones de influencia hasta LLMs con hasta 52 mil millones de parámetros. En nuestros experimentos, EK-FAC logra una precisión similar a la de los estimadores tradicionales de funciones de influencia, a pesar de que el cálculo del IHVP es órdenes de magnitud más rápido. Investigamos dos técnicas algorítmicas para reducir el costo de calcular los gradientes de secuencias candidatas de entrenamiento: filtrado TF-IDF y agrupación de consultas. Utilizamos funciones de influencia para investigar los patrones de generalización de los LLMs, incluyendo la dispersión de los patrones de influencia, el aumento de la abstracción con la escala, las habilidades en matemáticas y programación, la generalización multilingüe y el comportamiento de interpretación de roles. A pesar de muchas formas aparentemente sofisticadas de generalización, identificamos una limitación sorprendente: las influencias decaen a casi cero cuando se invierte el orden de frases clave. En general, las funciones de influencia nos proporcionan una herramienta poderosa para estudiar las propiedades de generalización de los LLMs.

English

When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.

Estudiando la Generalización de Modelos de Lenguaje de Gran Escala con Funciones de Influencia

Studying Large Language Model Generalization with Influence Functions

Resumen

Support