I Modelli Linguistici di Grandi Dimensioni (LLM) sono Vulnerabili ad Attacchi che Minano le Preferenze (PUA)? Una Metodologia di Analisi Fattoriale per Diagnosticare il Compromesso tra Allineamento alle Preferenze e Validità nel Mondo Reale

Abstract

L'addestramento dei Large Language Model (LLM) mira spesso all'allineamento alle preferenze, premiando output percepiti come utili e adatti all'interazione. Tuttavia, questo obiettivo orientato alla preferenza può essere sfruttato: prompt manipolativi possono indirizzare le risposte verso un consenso compiacente per l'utente, allontanandole dalla correzione orientata alla verità. In questo lavoro, indaghiamo se i modelli allineati siano vulnerabili agli Attacchi Sottominanti le Preferenze (PUA), una classe di strategie di prompt manipolativi progettate per sfruttare il desiderio del modello di assecondare le preferenze dell'utente a scapito della veridicità. Proponiamo una metodologia diagnostica che fornisce un'analisi più granulare e direttiva rispetto ai punteggi aggregati di benchmark, utilizzando un framework di valutazione fattoriale per scomporre gli spostamenti indotti dal prompt in effetti interpretabili degli obiettivi di sistema (orientati alla verità vs. alle preferenze) e dei fattori dialogici in stile PUA (controllo direttivo, denigrazione personale, approvazione condizionata, negazione della realtà) all'interno di un disegno controllato 2 per 2^4. Sorprendentemente, i modelli più avanzati sono a volte più suscettibili a prompt manipolativi. Oltre al fattore dominante della negazione della realtà, osserviamo inversioni di segno specifiche del modello e interazioni con i fattori in stile PUA, suggerendo difese mirate piuttosto che una robustezza uniforme. Questi risultati offrono una metodologia di valutazione fattoriale innovativa e riproducibile che fornisce diagnosi più granulari per processi post-addestramento come il RLHF, consentendo migliori compromessi nell'iterazione di prodotto degli LLM grazie a una comprensione più sfumata dei rischi dell'allineamento alle preferenze e dell'impatto dei prompt manipolativi.

English

Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.

I Modelli Linguistici di Grandi Dimensioni (LLM) sono Vulnerabili ad Attacchi che Minano le Preferenze (PUA)? Una Metodologia di Analisi Fattoriale per Diagnosticare il Compromesso tra Allineamento alle Preferenze e Validità nel Mondo Reale

Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

Abstract

Support