Manipulação de alinhamento: como o aprendizado por reforço a partir de feedback humano é explorado para otimizar vieses desalinhados

Resumo

O Aprendizado por Reforço com Feedback Humano (RLHF) é o método padrão para alinhar Modelos de Linguagem de Grande Escala (LLMs) às preferências humanas. Neste trabalho, introduzimos a adulteração de alinhamento, uma vulnerabilidade potencial em que o LLM em processo de alinhamento influencia o conjunto de dados de preferências, fazendo com que o RLHF amplifique comportamentos indesejados. Isso decorre de limitações centrais do RLHF: (1) os conjuntos de dados de preferências são construídos a partir das próprias saídas do LLM, permitindo que ele os influencie, e (2) comparações pareadas apenas indicam qual resposta é melhor, e não o porquê. Essas limitações podem ser exploradas para causar adulteração de alinhamento. Por exemplo, se um LLM gera respostas tendenciosas com maior qualidade, os anotadores as preferirão com base na qualidade. No entanto, os rótulos de preferência não distinguem qualidade de viés, e o modelo de recompensa herda essa limitação. Otimizar tais recompensas por meio de aprendizado por reforço ou amostragem Best-of-N pode amplificar vieses desalinhados. Nossos experimentos demonstram a amplificação em diversos vieses: desde viés de palavras-chave até propaganda (ex.: sexismo), promoção de marcas e busca instrumental de objetivos. A mitigação continua desafiadora, pois as técnicas existentes para RLHF robusto não conseguem resolver completamente a adulteração de alinhamento sem sacrificar a qualidade das respostas. Essas descobertas revelam vulnerabilidades estruturais do RLHF atual e enfatizam a necessidade de prevenir essa vulnerabilidade. Página do projeto: https://alignment-tampering.github.io/

English

Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/