Orienter la généralisation hors distribution par ablation conceptuelle et réglage fin
Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
July 22, 2025
papers.authors: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI
papers.abstract
Le réglage fin des grands modèles de langage (LLMs) peut entraîner une généralisation involontaire hors distribution. Les approches standard pour résoudre ce problème reposent sur la modification des données d'entraînement, par exemple en ajoutant des données qui spécifient mieux la généralisation souhaitée. Cependant, cela n'est pas toujours pratique. Nous introduisons le Concept Ablation Fine-Tuning (CAFT), une technique qui exploite des outils d'interprétabilité pour contrôler la manière dont les LLMs généralisent à partir du réglage fin, sans avoir besoin de modifier les données d'entraînement ou d'utiliser des données de la distribution cible. Étant donné un ensemble de directions dans l'espace latent d'un LLM correspondant à des concepts indésirables, CAFT fonctionne en ablatant ces concepts à l'aide de projections linéaires pendant le réglage fin, orientant ainsi le modèle loin des généralisations non souhaitées. Nous appliquons avec succès CAFT à trois tâches de réglage fin, y compris le désalignement émergent, un phénomène où les LLMs réglés finement sur une tâche étroite généralisent pour donner des réponses gravement désalignées à des questions générales. Sans aucune modification des données de réglage fin, CAFT réduit les réponses désalignées par un facteur de 10 sans dégrader les performances sur la distribution d'entraînement. Globalement, CAFT représente une nouvelle approche pour orienter la généralisation des LLMs sans modifier les données d'entraînement.
English
Fine-tuning large language models (LLMs) can lead to unintended
out-of-distribution generalization. Standard approaches to this problem rely on
modifying training data, for example by adding data that better specify the
intended generalization. However, this is not always practical. We introduce
Concept Ablation Fine-Tuning (CAFT), a technique that leverages
interpretability tools to control how LLMs generalize from fine-tuning, without
needing to modify the training data or otherwise use data from the target
distribution. Given a set of directions in an LLM's latent space corresponding
to undesired concepts, CAFT works by ablating these concepts with linear
projections during fine-tuning, steering the model away from unintended
generalizations. We successfully apply CAFT to three fine-tuning tasks,
including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow
task generalize to give egregiously misaligned responses to general questions.
Without any changes to the fine-tuning data, CAFT reduces misaligned responses
by 10x without degrading performance on the training distribution. Overall,
CAFT represents a novel approach for steering LLM generalization without
modifying training data.