Orienter la généralisation hors distribution par ablation conceptuelle et réglage fin

papers.abstract

Le réglage fin des grands modèles de langage (LLMs) peut entraîner une généralisation involontaire hors distribution. Les approches standard pour résoudre ce problème reposent sur la modification des données d'entraînement, par exemple en ajoutant des données qui spécifient mieux la généralisation souhaitée. Cependant, cela n'est pas toujours pratique. Nous introduisons le Concept Ablation Fine-Tuning (CAFT), une technique qui exploite des outils d'interprétabilité pour contrôler la manière dont les LLMs généralisent à partir du réglage fin, sans avoir besoin de modifier les données d'entraînement ou d'utiliser des données de la distribution cible. Étant donné un ensemble de directions dans l'espace latent d'un LLM correspondant à des concepts indésirables, CAFT fonctionne en ablatant ces concepts à l'aide de projections linéaires pendant le réglage fin, orientant ainsi le modèle loin des généralisations non souhaitées. Nous appliquons avec succès CAFT à trois tâches de réglage fin, y compris le désalignement émergent, un phénomène où les LLMs réglés finement sur une tâche étroite généralisent pour donner des réponses gravement désalignées à des questions générales. Sans aucune modification des données de réglage fin, CAFT réduit les réponses désalignées par un facteur de 10 sans dégrader les performances sur la distribution d'entraînement. Globalement, CAFT représente une nouvelle approche pour orienter la généralisation des LLMs sans modifier les données d'entraînement.

English

Fine-tuning large language models (LLMs) can lead to unintended out-of-distribution generalization. Standard approaches to this problem rely on modifying training data, for example by adding data that better specify the intended generalization. However, this is not always practical. We introduce Concept Ablation Fine-Tuning (CAFT), a technique that leverages interpretability tools to control how LLMs generalize from fine-tuning, without needing to modify the training data or otherwise use data from the target distribution. Given a set of directions in an LLM's latent space corresponding to undesired concepts, CAFT works by ablating these concepts with linear projections during fine-tuning, steering the model away from unintended generalizations. We successfully apply CAFT to three fine-tuning tasks, including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow task generalize to give egregiously misaligned responses to general questions. Without any changes to the fine-tuning data, CAFT reduces misaligned responses by 10x without degrading performance on the training distribution. Overall, CAFT represents a novel approach for steering LLM generalization without modifying training data.

Orienter la généralisation hors distribution par ablation conceptuelle et réglage fin

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

papers.abstract

Support