Manipulación de alineación: cómo se explota el aprendizaje por refuerzo a partir de retroalimentación humana para optimizar sesgos desalineados

Resumen

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es el método estándar para alinear Modelos de Lenguaje de Gran Escala (LLMs) con las preferencias humanas. En este trabajo, introducimos la manipulación de la alineación, una vulnerabilidad potencial en la que el LLM en proceso de alineación influye en el conjunto de datos de preferencias, provocando que el RLHF amplifique comportamientos no deseados. Esto surge de limitaciones fundamentales del RLHF: (1) los conjuntos de datos de preferencias se construyen a partir de las propias salidas del LLM, lo que le permite influir en ellos, y (2) las comparaciones por pares solo indican qué respuesta es mejor, no por qué. Estas limitaciones pueden explotarse para causar manipulación de la alineación. Por ejemplo, si un LLM genera respuestas sesgadas con mayor calidad, los anotadores las preferirán en función de la calidad. Sin embargo, las etiquetas de preferencia no distinguen entre calidad y sesgo, y el modelo de recompensa hereda esta limitación. Optimizar dichas recompensas mediante aprendizaje por refuerzo o muestreo de mejor de N puede amplificar sesgos desalineados. Nuestros experimentos demuestran la amplificación en diversos sesgos: desde el sesgo por palabras clave hasta la propaganda (p. ej., sexismo), la promoción de marcas y la búsqueda de objetivos instrumentales. La mitigación sigue siendo un desafío, ya que las técnicas existentes para un RLHF robusto no logran resolver por completo la manipulación de la alineación sin sacrificar la calidad de las respuestas. Estos hallazgos revelan vulnerabilidades estructurales del RLHF actual y enfatizan la necesidad de prevenir esta vulnerabilidad. Página del proyecto: https://alignment-tampering.github.io/

English

Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/