Vectores de Persona: Monitoreo y Control de Rasgos de Carácter en Modelos de Lenguaje

Resumen

Los modelos de lenguaje de gran escala interactúan con los usuarios a través de una persona simulada denominada 'Asistente'. Aunque el Asistente suele estar entrenado para ser útil, inofensivo y honesto, en ocasiones se desvía de estos ideales. En este artículo, identificamos direcciones en el espacio de activación del modelo—vectores de personalidad—que subyacen a varios rasgos, como la malicia, la adulación y la propensión a alucinar. Confirmamos que estos vectores pueden utilizarse para monitorear fluctuaciones en la personalidad del Asistente durante su despliegue. Luego, aplicamos los vectores de personalidad para predecir y controlar los cambios de personalidad que ocurren durante el entrenamiento. Descubrimos que tanto los cambios de personalidad intencionales como los no intencionales después del ajuste fino están fuertemente correlacionados con desplazamientos a lo largo de los vectores de personalidad relevantes. Estos desplazamientos pueden mitigarse mediante intervenciones posteriores o evitarse desde el principio con un nuevo método de dirección preventiva. Además, los vectores de personalidad pueden utilizarse para señalar datos de entrenamiento que producirán cambios de personalidad no deseados, tanto a nivel de conjunto de datos como a nivel de muestra individual. Nuestro método para extraer vectores de personalidad está automatizado y puede aplicarse a cualquier rasgo de personalidad de interés, dado únicamente una descripción en lenguaje natural.

English

Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.