ChatPaper.aiChatPaper

Исследование обобщающей способности крупных языковых моделей с использованием функций влияния

Studying Large Language Model Generalization with Influence Functions

August 7, 2023
Авторы: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamilė Lukošiūtė, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
cs.AI

Аннотация

При попытке получить более глубокое представление о модели машинного обучения с целью понимания и снижения связанных с ней рисков потенциально ценным источником информации является вопрос: какие обучающие примеры в наибольшей степени способствуют определенному поведению модели? Функции влияния (influence functions) направлены на ответ на контрфактический вопрос: как изменились бы параметры модели (и, следовательно, её выходные данные), если бы в обучающий набор была добавлена определенная последовательность? Хотя функции влияния дали полезные инсайты для небольших моделей, их сложно масштабировать на крупные языковые модели (LLM) из-за трудностей вычисления произведения вектора на обратную матрицу Гессе (IHVP). Мы используем приближение Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) для масштабирования функций влияния на LLM с числом параметров до 52 миллиардов. В наших экспериментах EK-FAC демонстрирует точность, сопоставимую с традиционными оценками функций влияния, при этом вычисление IHVP выполняется на порядки быстрее. Мы исследуем два алгоритмических подхода для снижения затрат на вычисление градиентов кандидатных обучающих последовательностей: фильтрацию по TF-IDF и пакетную обработку запросов. Мы используем функции влияния для изучения паттернов обобщения LLM, включая разреженность паттернов влияния, увеличение уровня абстракции с ростом масштаба модели, способности в математике и программировании, кросс-лингвистическое обобщение и поведение в ролевых сценариях. Несмотря на множество внешне сложных форм обобщения, мы выявляем удивительное ограничение: влияние снижается почти до нуля при изменении порядка ключевых фраз. В целом, функции влияния предоставляют мощный новый инструмент для изучения свойств обобщения LLM.
English
When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.
PDF130December 15, 2024