Управление обобщением на распределениях вне выборки с помощью тонкой настройки с исключением концепций
Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
July 22, 2025
Авторы: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Аннотация
Тонкая настройка больших языковых моделей (LLM) может приводить к непреднамеренной генерализации за пределами распределения данных. Стандартные подходы к решению этой проблемы предполагают модификацию обучающих данных, например, путем добавления данных, которые лучше определяют целевую генерализацию. Однако это не всегда практично. Мы представляем метод тонкой настройки с абляцией концепций (Concept Ablation Fine-Tuning, CAFT), который использует инструменты интерпретируемости для управления тем, как LLM обобщают данные в процессе тонкой настройки, без необходимости изменения обучающих данных или использования данных из целевого распределения. При наличии набора направлений в латентном пространстве LLM, соответствующих нежелательным концепциям, CAFT работает путем абляции этих концепций с помощью линейных проекций в процессе тонкой настройки, направляя модель в сторону от непреднамеренных обобщений. Мы успешно применили CAFT к трем задачам тонкой настройки, включая феномен эмерджентного рассогласования, при котором LLM, настроенные на узкую задачу, обобщают данные и выдают крайне несогласованные ответы на общие вопросы. Без каких-либо изменений в данных для тонкой настройки CAFT сокращает количество несогласованных ответов в 10 раз, не ухудшая производительность на обучающем распределении. В целом, CAFT представляет собой новый подход для управления генерализацией LLM без изменения обучающих данных.
English
Fine-tuning large language models (LLMs) can lead to unintended
out-of-distribution generalization. Standard approaches to this problem rely on
modifying training data, for example by adding data that better specify the
intended generalization. However, this is not always practical. We introduce
Concept Ablation Fine-Tuning (CAFT), a technique that leverages
interpretability tools to control how LLMs generalize from fine-tuning, without
needing to modify the training data or otherwise use data from the target
distribution. Given a set of directions in an LLM's latent space corresponding
to undesired concepts, CAFT works by ablating these concepts with linear
projections during fine-tuning, steering the model away from unintended
generalizations. We successfully apply CAFT to three fine-tuning tasks,
including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow
task generalize to give egregiously misaligned responses to general questions.
Without any changes to the fine-tuning data, CAFT reduces misaligned responses
by 10x without degrading performance on the training distribution. Overall,
CAFT represents a novel approach for steering LLM generalization without
modifying training data.