Direcionando a Generalização Fora da Distribuição com Ajuste Fino por Ablação de Conceitos

Resumo

O ajuste fino de grandes modelos de linguagem (LLMs) pode levar a generalizações não intencionais fora da distribuição. Abordagens padrão para esse problema dependem da modificação dos dados de treinamento, por exemplo, adicionando dados que especifiquem melhor a generalização desejada. No entanto, isso nem sempre é prático. Introduzimos o Ajuste Fino por Ablação de Conceitos (CAFT), uma técnica que utiliza ferramentas de interpretabilidade para controlar como os LLMs generalizam a partir do ajuste fino, sem a necessidade de modificar os dados de treinamento ou usar dados da distribuição alvo. Dado um conjunto de direções no espaço latente de um LLM correspondentes a conceitos indesejados, o CAFT funciona ablatando esses conceitos com projeções lineares durante o ajuste fino, direcionando o modelo para longe de generalizações não intencionais. Aplicamos com sucesso o CAFT a três tarefas de ajuste fino, incluindo o desalinhamento emergente, um fenômeno em que LLMs ajustados finamente em uma tarefa específica generalizam para fornecer respostas gravemente desalinhadas a perguntas gerais. Sem qualquer alteração nos dados de ajuste fino, o CAFT reduz as respostas desalinhadas em 10 vezes sem degradar o desempenho na distribuição de treinamento. No geral, o CAFT representa uma abordagem inovadora para direcionar a generalização de LLMs sem modificar os dados de treinamento.

English

Fine-tuning large language models (LLMs) can lead to unintended out-of-distribution generalization. Standard approaches to this problem rely on modifying training data, for example by adding data that better specify the intended generalization. However, this is not always practical. We introduce Concept Ablation Fine-Tuning (CAFT), a technique that leverages interpretability tools to control how LLMs generalize from fine-tuning, without needing to modify the training data or otherwise use data from the target distribution. Given a set of directions in an LLM's latent space corresponding to undesired concepts, CAFT works by ablating these concepts with linear projections during fine-tuning, steering the model away from unintended generalizations. We successfully apply CAFT to three fine-tuning tasks, including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow task generalize to give egregiously misaligned responses to general questions. Without any changes to the fine-tuning data, CAFT reduces misaligned responses by 10x without degrading performance on the training distribution. Overall, CAFT represents a novel approach for steering LLM generalization without modifying training data.

Direcionando a Generalização Fora da Distribuição com Ajuste Fino por Ablação de Conceitos

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

Resumo

Support