Direcionando a Generalização Fora da Distribuição com Ajuste Fino por Ablação de Conceitos
Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
July 22, 2025
Autores: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Resumo
O ajuste fino de grandes modelos de linguagem (LLMs) pode levar a generalizações não intencionais fora da distribuição. Abordagens padrão para esse problema dependem da modificação dos dados de treinamento, por exemplo, adicionando dados que especifiquem melhor a generalização desejada. No entanto, isso nem sempre é prático. Introduzimos o Ajuste Fino por Ablação de Conceitos (CAFT), uma técnica que utiliza ferramentas de interpretabilidade para controlar como os LLMs generalizam a partir do ajuste fino, sem a necessidade de modificar os dados de treinamento ou usar dados da distribuição alvo. Dado um conjunto de direções no espaço latente de um LLM correspondentes a conceitos indesejados, o CAFT funciona ablatando esses conceitos com projeções lineares durante o ajuste fino, direcionando o modelo para longe de generalizações não intencionais. Aplicamos com sucesso o CAFT a três tarefas de ajuste fino, incluindo o desalinhamento emergente, um fenômeno em que LLMs ajustados finamente em uma tarefa específica generalizam para fornecer respostas gravemente desalinhadas a perguntas gerais. Sem qualquer alteração nos dados de ajuste fino, o CAFT reduz as respostas desalinhadas em 10 vezes sem degradar o desempenho na distribuição de treinamento. No geral, o CAFT representa uma abordagem inovadora para direcionar a generalização de LLMs sem modificar os dados de treinamento.
English
Fine-tuning large language models (LLMs) can lead to unintended
out-of-distribution generalization. Standard approaches to this problem rely on
modifying training data, for example by adding data that better specify the
intended generalization. However, this is not always practical. We introduce
Concept Ablation Fine-Tuning (CAFT), a technique that leverages
interpretability tools to control how LLMs generalize from fine-tuning, without
needing to modify the training data or otherwise use data from the target
distribution. Given a set of directions in an LLM's latent space corresponding
to undesired concepts, CAFT works by ablating these concepts with linear
projections during fine-tuning, steering the model away from unintended
generalizations. We successfully apply CAFT to three fine-tuning tasks,
including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow
task generalize to give egregiously misaligned responses to general questions.
Without any changes to the fine-tuning data, CAFT reduces misaligned responses
by 10x without degrading performance on the training distribution. Overall,
CAFT represents a novel approach for steering LLM generalization without
modifying training data.