Sturen van Out-of-Distribution Generalisatie met Concept Ablatie Fine-Tuning
Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
July 22, 2025
Auteurs: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Samenvatting
Het finetunen van grote taalmodellen (LLMs) kan leiden tot onbedoelde generalisatie buiten de distributie. Standaardbenaderingen voor dit probleem zijn gebaseerd op het aanpassen van de trainingsdata, bijvoorbeeld door data toe te voegen die de beoogde generalisatie beter specificeren. Dit is echter niet altijd praktisch. Wij introduceren Concept Ablation Fine-Tuning (CAFT), een techniek die interpretatietools benut om te bepalen hoe LLMs generaliseren na finetunen, zonder dat de trainingsdata aangepast hoeft te worden of data van de doeldistributie gebruikt moet worden. Gegeven een set richtingen in de latente ruimte van een LLM die corresponderen met ongewenste concepten, werkt CAFT door deze concepten te ableren met lineaire projecties tijdens het finetunen, waardoor het model wordt gestuurd om onbedoelde generalisaties te vermijden. We passen CAFT succesvol toe op drie finetuningtaken, waaronder emergent misalignment, een fenomeen waarbij LLMs die gefinetuned zijn op een specifieke taak generaliseren om ernstig verkeerde antwoorden te geven op algemene vragen. Zonder enige aanpassingen aan de finetuningdata reduceert CAFT verkeerde antwoorden met een factor 10 zonder de prestaties op de trainingsdistributie te verslechteren. Over het algemeen vertegenwoordigt CAFT een nieuwe benadering om de generalisatie van LLMs te sturen zonder de trainingsdata aan te passen.
English
Fine-tuning large language models (LLMs) can lead to unintended
out-of-distribution generalization. Standard approaches to this problem rely on
modifying training data, for example by adding data that better specify the
intended generalization. However, this is not always practical. We introduce
Concept Ablation Fine-Tuning (CAFT), a technique that leverages
interpretability tools to control how LLMs generalize from fine-tuning, without
needing to modify the training data or otherwise use data from the target
distribution. Given a set of directions in an LLM's latent space corresponding
to undesired concepts, CAFT works by ablating these concepts with linear
projections during fine-tuning, steering the model away from unintended
generalizations. We successfully apply CAFT to three fine-tuning tasks,
including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow
task generalize to give egregiously misaligned responses to general questions.
Without any changes to the fine-tuning data, CAFT reduces misaligned responses
by 10x without degrading performance on the training distribution. Overall,
CAFT represents a novel approach for steering LLM generalization without
modifying training data.