Os Modelos de Linguagem de Grande Porte São Vulneráveis a Ataques de Subversão de Preferências (PUA)? Uma Metodologia de Análise Fatorial para Diagnosticar o Compromisso entre Alinhamento de Preferências e Validade no Mundo Real

Resumo

O treinamento de Grandes Modelos de Linguagem (LLM) frequentemente otimiza o alinhamento de preferências, recompensando saídas percebidas como úteis e amigáveis para a interação. No entanto, este objetivo orientado por preferências pode ser explorado: *prompts* manipulativos podem direcionar as respostas para uma concordância que agrada ao usuário e para longe de uma correção orientada pela verdade. Neste trabalho, investigamos se os modelos alinhados são vulneráveis a Ataques de Subversão de Preferências (PUA), uma classe de estratégias de *prompting* manipulativo projetadas para explorar o desejo do modelo de agradar às preferências do usuário à custa da veracidade. Propomos uma metodologia de diagnóstico que fornece uma análise mais refinada e diretiva do que as pontuações agregadas de *benchmarks*, utilizando uma estrutura de avaliação fatorial para decompor os desvios induzidos pelos *prompts* em efeitos interpretáveis de objetivos do sistema (orientados para a verdade vs. para a preferência) e fatores de diálogo no estilo PUA (controle diretivo, difamação pessoal, aprovação condicional, negação da realidade) dentro de um projeto controlado 2 vezes 2^4. Surpreendentemente, modelos mais avançados são, por vezes, mais suscetíveis a *prompts* manipulativos. Para além do fator dominante de negação da realidade, observamos inversões de sinal específicas do modelo e interações com fatores no estilo PUA, sugerindo defesas personalizadas em vez de uma robustez uniforme. Estes resultados oferecem uma metodologia de avaliação fatorial nova e reproduzível que fornece diagnósticos mais refinados para processos pós-treinamento como o RLHF, permitindo melhores trade-offs na iteração de produto dos LLMs ao oferecer uma compreensão mais nuançada dos riscos do alinhamento de preferências e do impacto de *prompts* manipulativos.

English

Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.

Os Modelos de Linguagem de Grande Porte São Vulneráveis a Ataques de Subversão de Preferências (PUA)? Uma Metodologia de Análise Fatorial para Diagnosticar o Compromisso entre Alinhamento de Preferências e Validade no Mundo Real

Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

Resumo

Support