Dirigiendo la Generalización Fuera de Distribución con Ajuste Fino mediante Ablación de Conceptos

Resumen

El ajuste fino de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) puede dar lugar a generalizaciones no deseadas fuera de la distribución. Los enfoques estándar para este problema se basan en modificar los datos de entrenamiento, por ejemplo, añadiendo datos que especifiquen mejor la generalización deseada. Sin embargo, esto no siempre es práctico. Introducimos el Ajuste Fino por Ablación de Conceptos (CAFT, por sus siglas en inglés), una técnica que aprovecha herramientas de interpretabilidad para controlar cómo los LLMs generalizan a partir del ajuste fino, sin necesidad de modificar los datos de entrenamiento o utilizar datos de la distribución objetivo. Dado un conjunto de direcciones en el espacio latente de un LLM que corresponden a conceptos no deseados, CAFT funciona ablacionando estos conceptos mediante proyecciones lineales durante el ajuste fino, dirigiendo el modelo lejos de generalizaciones no deseadas. Aplicamos con éxito CAFT a tres tareas de ajuste fino, incluido el desajuste emergente, un fenómeno en el que los LLMs ajustados finamente en una tarea específica generalizan para dar respuestas gravemente desalineadas a preguntas generales. Sin realizar cambios en los datos de ajuste fino, CAFT reduce las respuestas desalineadas en un factor de 10 sin degradar el rendimiento en la distribución de entrenamiento. En general, CAFT representa un enfoque novedoso para dirigir la generalización de los LLMs sin modificar los datos de entrenamiento.

English

Fine-tuning large language models (LLMs) can lead to unintended out-of-distribution generalization. Standard approaches to this problem rely on modifying training data, for example by adding data that better specify the intended generalization. However, this is not always practical. We introduce Concept Ablation Fine-Tuning (CAFT), a technique that leverages interpretability tools to control how LLMs generalize from fine-tuning, without needing to modify the training data or otherwise use data from the target distribution. Given a set of directions in an LLM's latent space corresponding to undesired concepts, CAFT works by ablating these concepts with linear projections during fine-tuning, steering the model away from unintended generalizations. We successfully apply CAFT to three fine-tuning tasks, including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow task generalize to give egregiously misaligned responses to general questions. Without any changes to the fine-tuning data, CAFT reduces misaligned responses by 10x without degrading performance on the training distribution. Overall, CAFT represents a novel approach for steering LLM generalization without modifying training data.

Dirigiendo la Generalización Fuera de Distribución con Ajuste Fino mediante Ablación de Conceptos

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

Resumen

Support