Guidare la Generalizzazione Fuori Distribuzione con l'Ablazione Concettuale e il Fine-Tuning
Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
July 22, 2025
Autori: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Abstract
Il fine-tuning di grandi modelli linguistici (LLM) può portare a una generalizzazione non intenzionale al di fuori della distribuzione. Gli approcci standard a questo problema si basano sulla modifica dei dati di addestramento, ad esempio aggiungendo dati che specificano meglio la generalizzazione desiderata. Tuttavia, ciò non è sempre pratico. Introduciamo il Concept Ablation Fine-Tuning (CAFT), una tecnica che sfrutta strumenti di interpretabilità per controllare come gli LLM generalizzano dal fine-tuning, senza bisogno di modificare i dati di addestramento o utilizzare dati dalla distribuzione target. Dato un insieme di direzioni nello spazio latente di un LLM corrispondenti a concetti indesiderati, CAFT opera ablazionando questi concetti con proiezioni lineari durante il fine-tuning, orientando il modello lontano da generalizzazioni non intenzionali. Abbiamo applicato con successo CAFT a tre task di fine-tuning, incluso il disallineamento emergente, un fenomeno in cui gli LLM sottoposti a fine-tuning su un task ristretto generalizzano fornendo risposte gravemente disallineate a domande generali. Senza alcuna modifica ai dati di fine-tuning, CAFT riduce le risposte disallineate di 10 volte senza degradare le prestazioni sulla distribuzione di addestramento. Nel complesso, CAFT rappresenta un approccio innovativo per orientare la generalizzazione degli LLM senza modificare i dati di addestramento.
English
Fine-tuning large language models (LLMs) can lead to unintended
out-of-distribution generalization. Standard approaches to this problem rely on
modifying training data, for example by adding data that better specify the
intended generalization. However, this is not always practical. We introduce
Concept Ablation Fine-Tuning (CAFT), a technique that leverages
interpretability tools to control how LLMs generalize from fine-tuning, without
needing to modify the training data or otherwise use data from the target
distribution. Given a set of directions in an LLM's latent space corresponding
to undesired concepts, CAFT works by ablating these concepts with linear
projections during fine-tuning, steering the model away from unintended
generalizations. We successfully apply CAFT to three fine-tuning tasks,
including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow
task generalize to give egregiously misaligned responses to general questions.
Without any changes to the fine-tuning data, CAFT reduces misaligned responses
by 10x without degrading performance on the training distribution. Overall,
CAFT represents a novel approach for steering LLM generalization without
modifying training data.