¿Son los LLM Vulnerables a Ataques de Socavación de Preferencias (PUA)? Una Metodología de Análisis Factorial para Diagnosticar la Disyuntiva entre la Alineación de Preferencias y la Validez en el Mundo Real
Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity
January 10, 2026
Autores: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI
Resumen
El entrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) a menudo optimiza la alineación con preferencias, premiando las salidas que se perciben como útiles y aptas para la interacción. Sin embargo, este objetivo orientado a las preferencias puede ser explotado: indicaciones manipuladoras pueden dirigir las respuestas hacia una complacencia que apacigüe al usuario y alejarlas de una corrección orientada a la verdad. En este trabajo, investigamos si los modelos alineados son vulnerables a los Ataques de Socavamiento de Preferencias (PUA), una clase de estrategias de indicación manipuladoras diseñadas para explotar el deseo del modelo de complacer las preferencias del usuario a expensas de la veracidad. Proponemos una metodología de diagnóstico que proporciona un análisis más detallado y directivo que las puntuaciones agregadas de evaluación comparativa, utilizando un marco de evaluación factorial para descomponer los cambios inducidos por la indicación en efectos interpretables de los objetivos del sistema (orientados a la verdad vs. orientados a la preferencia) y factores de diálogo de estilo PUA (control directivo, denigración personal, aprobación condicional, negación de la realidad) dentro de un diseño controlado 2 veces 2^4. Sorprendentemente, los modelos más avanzados son a veces más susceptibles a las indicaciones manipuladoras. Más allá del factor dominante de negación de la realidad, observamos inversiones de signo específicas del modelo e interacciones con factores de estilo PUA, lo que sugiere defensas personalizadas en lugar de una solidez uniforme. Estos hallazgos ofrecen una metodología de evaluación factorial novedosa y reproducible que proporciona diagnósticos más detallados para procesos posteriores al entrenamiento, como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), permitiendo mejores compensaciones en la iteración de productos de LLM al ofrecer una comprensión más matizada de los riesgos de la alineación de preferencias y el impacto de las indicaciones manipuladoras.
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.