Manipulation de l'alignement : comment l'apprentissage par renforcement à partir de rétroaction humaine est exploité pour optimiser des biais désalignés

Résumé

L'apprentissage par renforcement à partir du retour humain (RLHF) est la méthode standard pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. Dans ce travail, nous introduisons la manipulation de l'alignement, une vulnérabilité potentielle où le LLM en cours d'alignement influence le jeu de données de préférences, amenant le RLHF à amplifier des comportements indésirables. Cela provient de limitations fondamentales du RLHF : (1) les jeux de données de préférences sont construits à partir des propres sorties du LLM, ce qui lui permet de les influencer, et (2) les comparaisons par paires indiquent uniquement quelle réponse est meilleure, non pas pourquoi. Ces limitations peuvent être exploitées pour provoquer une manipulation de l'alignement. Par exemple, si un LLM génère des réponses biaisées avec une qualité supérieure, les annotateurs leur accorderont une préférence en fonction de cette qualité. Cependant, les étiquettes de préférence ne distinguent pas la qualité du biais, et le modèle de récompense hérite de cette limitation. Optimiser de telles récompenses via l'apprentissage par renforcement ou l'échantillonnage best-of-N peut amplifier des biais non alignés. Nos expériences démontrent cette amplification à travers divers biais : du biais lexical à la propagande (ex. sexisme), en passant par la promotion de marque et la poursuite d'objectifs instrumentaux. L'atténuation reste difficile, car les techniques existantes pour un RLHF robuste ne parviennent pas à résoudre entièrement la manipulation de l'alignement sans sacrifier la qualité des réponses. Ces résultats révèlent des vulnérabilités structurelles du RLHF actuel et soulignent la nécessité de prévenir cette vulnérabilité. Page du projet : https://alignment-tampering.github.io/

English

Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/