Dirigiendo la Generalización Fuera de Distribución con Ajuste Fino mediante Ablación de Conceptos
Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
July 22, 2025
Autores: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Resumen
El ajuste fino de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) puede dar lugar a generalizaciones no deseadas fuera de la distribución. Los enfoques estándar para este problema se basan en modificar los datos de entrenamiento, por ejemplo, añadiendo datos que especifiquen mejor la generalización deseada. Sin embargo, esto no siempre es práctico. Introducimos el Ajuste Fino por Ablación de Conceptos (CAFT, por sus siglas en inglés), una técnica que aprovecha herramientas de interpretabilidad para controlar cómo los LLMs generalizan a partir del ajuste fino, sin necesidad de modificar los datos de entrenamiento o utilizar datos de la distribución objetivo. Dado un conjunto de direcciones en el espacio latente de un LLM que corresponden a conceptos no deseados, CAFT funciona ablacionando estos conceptos mediante proyecciones lineales durante el ajuste fino, dirigiendo el modelo lejos de generalizaciones no deseadas. Aplicamos con éxito CAFT a tres tareas de ajuste fino, incluido el desajuste emergente, un fenómeno en el que los LLMs ajustados finamente en una tarea específica generalizan para dar respuestas gravemente desalineadas a preguntas generales. Sin realizar cambios en los datos de ajuste fino, CAFT reduce las respuestas desalineadas en un factor de 10 sin degradar el rendimiento en la distribución de entrenamiento. En general, CAFT representa un enfoque novedoso para dirigir la generalización de los LLMs sin modificar los datos de entrenamiento.
English
Fine-tuning large language models (LLMs) can lead to unintended
out-of-distribution generalization. Standard approaches to this problem rely on
modifying training data, for example by adding data that better specify the
intended generalization. However, this is not always practical. We introduce
Concept Ablation Fine-Tuning (CAFT), a technique that leverages
interpretability tools to control how LLMs generalize from fine-tuning, without
needing to modify the training data or otherwise use data from the target
distribution. Given a set of directions in an LLM's latent space corresponding
to undesired concepts, CAFT works by ablating these concepts with linear
projections during fine-tuning, steering the model away from unintended
generalizations. We successfully apply CAFT to three fine-tuning tasks,
including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow
task generalize to give egregiously misaligned responses to general questions.
Without any changes to the fine-tuning data, CAFT reduces misaligned responses
by 10x without degrading performance on the training distribution. Overall,
CAFT represents a novel approach for steering LLM generalization without
modifying training data.