ChatPaper.aiChatPaper

Steuerung der Out-of-Distribution-Generalisierung durch Konzeptablation und Feinabstimmung

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

July 22, 2025
papers.authors: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI

papers.abstract

Das Feinabstimmen großer Sprachmodelle (LLMs) kann zu unbeabsichtigter Generalisierung außerhalb der Verteilung führen. Standardansätze für dieses Problem beruhen auf der Modifikation der Trainingsdaten, beispielsweise durch das Hinzufügen von Daten, die die beabsichtigte Generalisierung besser spezifizieren. Dies ist jedoch nicht immer praktikabel. Wir stellen Concept Ablation Fine-Tuning (CAFT) vor, eine Technik, die Interpretierbarkeitstools nutzt, um zu steuern, wie LLMs aus dem Feinabstimmen generalisieren, ohne dass die Trainingsdaten modifiziert oder Daten aus der Zielverteilung verwendet werden müssen. Bei einer gegebenen Menge von Richtungen im latenten Raum eines LLMs, die unerwünschten Konzepten entsprechen, arbeitet CAFT durch die Ablation dieser Konzepte mittels linearer Projektionen während des Feinabstimmens, wodurch das Modell von unbeabsichtigten Generalisierungen abgelenkt wird. Wir wenden CAFT erfolgreich auf drei Feinabstimmungsaufgaben an, einschließlich des Phänomens der emergenten Fehlausrichtung, bei dem LLMs, die auf eine eng gefasste Aufgabe feinabgestimmt wurden, auf allgemeine Fragen eklatant fehlausgerichtete Antworten geben. Ohne Änderungen an den Feinabstimmungsdaten reduziert CAFT fehlausgerichtete Antworten um das Zehnfache, ohne die Leistung auf der Trainingsverteilung zu beeinträchtigen. Insgesamt repräsentiert CAFT einen neuartigen Ansatz zur Steuerung der LLM-Generalisierung ohne Modifikation der Trainingsdaten.
English
Fine-tuning large language models (LLMs) can lead to unintended out-of-distribution generalization. Standard approaches to this problem rely on modifying training data, for example by adding data that better specify the intended generalization. However, this is not always practical. We introduce Concept Ablation Fine-Tuning (CAFT), a technique that leverages interpretability tools to control how LLMs generalize from fine-tuning, without needing to modify the training data or otherwise use data from the target distribution. Given a set of directions in an LLM's latent space corresponding to undesired concepts, CAFT works by ablating these concepts with linear projections during fine-tuning, steering the model away from unintended generalizations. We successfully apply CAFT to three fine-tuning tasks, including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow task generalize to give egregiously misaligned responses to general questions. Without any changes to the fine-tuning data, CAFT reduces misaligned responses by 10x without degrading performance on the training distribution. Overall, CAFT represents a novel approach for steering LLM generalization without modifying training data.
PDF21July 23, 2025