Vettori Persona: Monitoraggio e Controllo dei Tratti Caratteriali nei Modelli Linguistici
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
July 29, 2025
Autori: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
cs.AI
Abstract
I grandi modelli linguistici interagiscono con gli utenti attraverso una "Assistente" simulata. Sebbene l'Assistente sia tipicamente addestrata per essere utile, innocua e onesta, a volte devia da questi ideali. In questo articolo, identifichiamo direzioni nello spazio di attivazione del modello - vettori di personalità - che sottendono diversi tratti, come la malvagità, la piaggeria e la propensione a produrre allucinazioni. Confermiamo che questi vettori possono essere utilizzati per monitorare le fluttuazioni della personalità dell'Assistente durante il dispiegamento. Applichiamo quindi i vettori di personalità per prevedere e controllare i cambiamenti di personalità che si verificano durante l'addestramento. Scopriamo che sia i cambiamenti di personalità intenzionali che quelli non intenzionali dopo il fine-tuning sono fortemente correlati con gli spostamenti lungo i vettori di personalità rilevanti. Questi spostamenti possono essere mitigati attraverso un intervento post-hoc, o evitati fin dall'inizio con un nuovo metodo di guida preventiva. Inoltre, i vettori di personalità possono essere utilizzati per segnalare i dati di addestramento che produrranno cambiamenti di personalità indesiderati, sia a livello di dataset che a livello di singolo campione. Il nostro metodo per estrarre i vettori di personalità è automatizzato e può essere applicato a qualsiasi tratto di personalità di interesse, data solo una descrizione in linguaggio naturale.
English
Large language models interact with users through a simulated 'Assistant'
persona. While the Assistant is typically trained to be helpful, harmless, and
honest, it sometimes deviates from these ideals. In this paper, we identify
directions in the model's activation space-persona vectors-underlying several
traits, such as evil, sycophancy, and propensity to hallucinate. We confirm
that these vectors can be used to monitor fluctuations in the Assistant's
personality at deployment time. We then apply persona vectors to predict and
control personality shifts that occur during training. We find that both
intended and unintended personality changes after finetuning are strongly
correlated with shifts along the relevant persona vectors. These shifts can be
mitigated through post-hoc intervention, or avoided in the first place with a
new preventative steering method. Moreover, persona vectors can be used to flag
training data that will produce undesirable personality changes, both at the
dataset level and the individual sample level. Our method for extracting
persona vectors is automated and can be applied to any personality trait of
interest, given only a natural-language description.