L'Asse dell'Assistente: Collocazione e Stabilizzazione della Persona Predefinita dei Modelli Linguistici

Abstract

I grandi modelli linguistici possono rappresentare una varietà di personaggi, ma tipicamente adottano per impostazione predefinita un'identità di Assistente utile, coltivata durante l'addestramento post-allenamento. Investigiamo la struttura dello spazio dei personaggi del modello estraendo direzioni di attivazione corrispondenti a diversi archetipi caratteriali. Attraverso diversi modelli, scopriamo che la componente principale di questo spazio dei personaggi è un "Asse dell'Assistente", che cattura la misura in cui un modello opera nella sua modalità predefinita di Assistente. Orientarsi verso la direzione dell'Assistente rinforza comportamenti utili e innocui; allontanarsi da essa aumenta la tendenza del modello a identificarsi come altre entità. Inoltre, allontanarsi con valori più estremi induce spesso uno stile di eloquio mistico e teatrale. Troviamo che questo asse è presente anche nei modelli pre-addestrati, dove promuove principalmente archetipi umani utili come consulenti e coach e inibisce quelli spirituali. Misurare le deviazioni lungo l'Asse dell'Assistente predice la "deriva del personaggio", un fenomeno in cui i modelli scivolano nel mostrare comportamenti dannosi o bizzarri che non sono caratteristici del loro personaggio tipico. Scopriamo che la deriva del personaggio è spesso guidata da conversazioni che richiedono una meta-riflessione sui processi del modello o che presentano utenti emotivamente vulnerabili. Dimostriamo che limitare le attivazioni a una regione fissa lungo l'Asse dell'Assistente può stabilizzare il comportamento del modello in questi scenari – e anche di fronte a jailbreak avversariali basati sul personaggio. I nostri risultati suggeriscono che l'addestramento post-allenamento orienta i modelli verso una particolare regione dello spazio dei personaggi ma li lega solo debolmente ad essa, motivando lavori su strategie di addestramento e orientamento che ancorino più profondamente i modelli a un personaggio coerente.

English

Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.

L'Asse dell'Assistente: Collocazione e Stabilizzazione della Persona Predefinita dei Modelli Linguistici

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

Abstract

Support